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计算 机 与 网 络 已 融入 到 了 人 们 的 日 常 学 习 、 工 作 和 生活 之 中 ， 成 为 人 们 不 可 
或 缺 的 助手 和 伙伴 .计算 机 与 网 络 的 飞速 发 展 完全 改变 了 人 们 的 学 习 、 工 作 和 生 
活 方式 . 智能 化 是 计算 机 研究 与 开发 的 一 个 主要 目标 . 近 几 十 年 来 的 实践 表明 , 统 
计 机 器 学 习 方 法 是 实现 这 一 目标 的 最 有 效 手 段 ， 尽 管 它 还 存在 着 一 定 的 局 限 性 . 

作者 一 直 从 事 利用 统计 学 习 方 法 对 文本 数据 进行 各 种 智能 性 处 理 的 研究 , 包 
括 自然 语言 处 理 、 信 息 检 索 、 文 本 数据 挖掘 近 20 年 来 ， 这 些 领域 发 展 之 快 ， 应 
用 之 广 ， 实 在 令 人 惊叹 ! 可 以 说 ， 统 计 机 器 学 习 是 这 些 领域 的 核心 技术 ， 在 这 些 
领域 的 发 展 及 应 用 中 起 着 决定 性 的 作用 . 

作者 在 日 常 的 研究 工作 中 经 常 指导 学 生 , 并 在 国内 外 一 些 大 学 及 讲习 班 上 多 
次 做 过 关于 统计 学 习 的 报告 和 演讲 . 在 这 一 过 程 中 ， 同 学 们 学 习 热 情 很 高 ， 希 望 
得 到 指导 ， 这 使 作者 产生 了 撰写 本 书 的 想法 

国内 外 已 出 版 了 多 本 关于 统计 机 器 学 习 的 书籍 ， 比 如 ，Hastie 等 人 的 《统计 
学 习 基 础 》。 该 书 对 统计 学 习 的 诸多 问题 有 非常 精辟 的 论述 ， 但 对 初学 者 来 说 显 
得 有 些 深奥 .统计 学 习 范 围 甚 广 ， 一 两 本 书 很 难 覆 盖 所 有 问题 .本 书 主要 是 面向 
将 统计 学 习 方法 作为 工具 的 科研 人 员 与 学 生 ， 特 别 是 从 事 信息 检索 、 自 然 语言 处 
理 、 文 本 数据 挖掘 及 相关 领域 的 研究 与 开发 的 科研 人 员 与 学 生 . 

本 书 力求 系统 而 详细 地 介绍 统计 学 习 的 方法 . 在 内 容 选 取 上 ， 侧 重 介绍 那些 
最 重要 、 最 常用 的 方法 , 特别 是 关于 分 类 与 标注 问题 的 方法 . 对 其 他 问题 及 方法 ， 
如 依 类 等 ， 计 划 在 今后 的 写作 中 再 加 以 介绍 . 在 叙述 方式 上 ， 每 一 章 讲 述 一 种 方 
法 ， 各 章 内 容 相对 独立 、 完 整 ， 同 时 力图 用 统一 框架 来 论述 所 有 方法 ， 使 全 书 整 
体 不 失 系统 性 ,读者 可 以 从 头 到 尾 通读 ， 也 可 以 选择 单个 章节 细 读 .对 每 一 方法 
的 讲述 力求 深入 浅 出 ， 给 出 必要 的 推导 证 明 ， 提 供 简单 的 实例 ， 使 初学 者 易于 掌 
握 方 法 的 基本 内 容 ， 领 会 方法 的 本 质 ， 并 准确 地 使 用 方法 .对 相关 的 深层 理论 ， 
则 仅 予 以 简 述 . 在 每 章 后 面 ,给 出 一 些 习 题 ， 介 绍 一 些 相关 的 研究 动向 和 阅读 材 
料 ， 列 出 参考 文献 ， 以 满足 读者 进一步 学 习 的 需求 . 本 书 第 1 章 简要 叙述 统计 学 
习 方 法 的 基本 概念 ， 最 后 一 章 对 统计 学 习 方法 进行 比较 与 总 结 . 此 外 ， 在 附录 中 
简要 介绍 一 些 共用 的 最 优化 理论 与 方法 . 

本 书 可 以 作为 统计 机 器 学 习 及 相关 课程 的 教学 参考 书 , 适用 于 信息 检索 及 自 
然 语 言 处 理 等 专业 的 大 学 生 、 研 究 生 . 

本 书 初稿 完成 后 ， 田 飞 、 王 佳 磊 、 武 威 、 陈 凯 、 伍 浩 钱 、 曹 正 、 陶 宇 等 人 分 
别 审 阅 了 全 部 或 部 分 章节 ， 提 出 了 许多 宝贵 意见 ， 对 本 书 质量 的 提高 有 很 大 帮 
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本 章 简要 叙述 统计 学 习 方法 的 一 些 基本 概念 . 这 是 对 全 书 内 容 的 概括 ， 也 是 
全 书 内 容 的 基础 ,首先 叙述 统计 学 习 的 定义 、 研 究 对 象 与 方法 ; 然后 叙述 监督 学 
习 , 这 是 本 书 的 主要 内 容 ; 接着 提出 统计 学 习 方法 的 三 要 素 : 模型 、 策 略 和 算法 ; 
介绍 模型 选择 ， 包 括 正则 化 、 交 叉 验证 与 学 习 的 泛 化 能 力 ; 介绍 生成 模型 与 判别 
模型 ， 最 后 介绍 监督 学 习 方 法 的 应 用 :分 类 问题 、 标 注 问题 与 回归 问题 . 
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1， 统 计 学 习 的 特点 


统计 学 习 (statistical learning) 是 关于 计算 机 基于 数据 构建 概率 统计 模型 并 运 
用 模型 对 数据 进行 预测 与 分 析 的 一 门 学 科 . 统计 学 习 也 称 为 统计 机 器 学 习 
人 《statistical machine learning ). 

统计 学 习 的 主要 特点 是 :〈1) 统计 学 习 以 计 算 机 及 网 络 为 平台 ， 是 建立 在 计 
算 机 及 网 络 之 上 的 ;(2) 统计 学 习 以 数据 为 研究 对 象 ， 是 数据 驱动 的 学 科 ;(3) 统 
计 学 习 的 目的 是 对 数据 进行 预测 与 分 析 ; (4) 统计 学 习 以 方 法 为 中 心 ， 统 计 学 习 
方法 构建 模型 并 应 用 模型 进行 预测 与 分 析 ; (5) 统计 学 习 是 概率 论 、 统 计 学 、 信 
息 论 、 计 算 理论 、 最 优化 理论 及 计算 机 科学 等 多 个 领域 的 交叉 学 科 ， 并 且 在 发 展 
中 逐步 形成 独自 的 理论 体系 与 方法 论 . 

赫 尔 伯 特 .西蒙 (Herbert A. Simon) 曾 对 “学 习 ” 给 出 以 下 定义 :“ 如 果 一 个 
系统 能 够 通过 执行 某 个 过 程 改进 它 的 性 能 ， 这 就 是 学 习 . ”按照 这 一 观点 ， 统 计 
学 习 就 是 计算 机 系统 通过 运用 数据 及 统计 方法 提高 系统 性 能 的 机 器 学 习 . 现在 , 当 
人 们 提 及 机 器 学 习 时 ， 往 往 是 指 统计 机 器 学 习 . 


2， 统 计 学 习 的 对 象 


统计 学 习 的 对 象 是 数据 〈data)， 它 从 数据 出 发 ， 提 取 数 据 的 特征 ， 抽 象 出 数 
据 的 模型 ， 发 现 数据 中 的 知识 ， 又 回 到 对 数据 的 分 析 与 预测 中 去 .作为 统计 学 习 
的 对 象 ， 数 据 是 多 样 的 ， 包 括 存在 于 计算 机 及 网 络 上 的 各 种 数字 、 文 字 、 图 像 、 
视频 、 音 频数 据 以 及 它们 的 组 合 . 

统计 学 习 关于 数据 的 基本 假设 是 同类 数据 具有 一 定 的 统计 规律 性 ， 这 是 统计 
学 习 的 前 提 . 这 里 的 同类 数据 是 指 具 有 某 种 共同 性 质 的 数据 ， 例 如 英文 文章 、 互 
联网 网 页 、 数 据 库 中 的 数据 等 . 由 于 它们 具有 统计 规律 性 ， 所 以 可 以 用 概率 统计 
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方法 来 加 以 处 理 . 比如， 可 以 用 随机 变量 描述 数据 中 的 特征 ， 用 概率 分 布 描述 数 
据 的 统计 规律 . 

在 统计 学 习 过 程 中 ， 以 变量 或 变量 组 表示 数据 . 数据 分 为 由 连续 变量 和 离散 
变量 表示 的 类 型 . 本 书 以 讨论 离散 变量 的 方法 为 主 。 另 外， 本 书 只 涉及 利用 数据 
构建 模型 及 利用 模型 对 数据 进行 分 析 与 预测 ， 对 数据 的 观测 和 收集 等 问题 不 作 
讨论 . 

3， 统 计 学 习 的 目的 

统计 学 习 用 于 对 数据 进行 预测 与 分 析 ， 特 别 是 对 未 知 新 数据 进行 预测 与 分 
析 . 对 数据 的 预测 可 以 使 计算 机 更 加 智能 化 ， 或 者 说 使 计算 机 的 某 些 性 能 得 到 提 
高 ， 对 数据 的 分 析 可 以 让 人 们 获取 新 的 知识 ， 给 人 们 带 来 新 的 发 现 . 

对 数据 的 预测 与 分 析 是 通过 构建 概率 统计 模型 实现 的 . 统计 学 习 总 的 目标 就 
是 考虑 学 习 什么 样 的 模型 和 如 何 学 习 模型 ， 以 使 模型 能 对 数据 进行 准确 的 预测 与 
分 析 ， 同 时 也 要 考虑 尽 可 能 地 提高 学 习 效率 . 


4， 统 计 学 习 的 方法 


统计 学 习 的 方法 是 基于 数据 构建 统计 模型 从 而 对 数据 进行 预测 与 分 析 . 统计 
学 习 由 监督 学 习 〈supervised learning)、 非 监督 学 习 〈unsupervised learning)、 半 监 
督学 习 〈semi-supervised learmning) 和 强化 学 习 〈reinforcement leaming) 等 组 成 . 

本 书 主要 讨论 监督 学 习 ， 这 种 情况 下 统计 学 习 的 方法 可 以 概括 如 下 : 从 给 定 
的 、 有限 的 、 用 于 学 习 的 训练 数据 (training data) 集合 出 发 ， 假 设 数 据 是 独立 同 分 
布 产生 的 ; 并 且 假 设 要 学 习 的 模型 属于 某 个 函数 的 集合 , 称 为 假设 空间 (hypothesis 
space); 应 用 某 个 评价 准则 〈evaluation criterion)， 从 假设 空间 中 选取 一 个 最 优 的 
模型 ， 使 它 对 已 知 训练 数据 及 未 知 测试 数据 (test data) 在 给 定 的 评价 准则 下 有 最 
优 的 预测 ， 最 优 模型 的 选取 由 算法 实现 .这样 ， 统 计 学习 方法 包括 模型 的 假设 空 
间 、 模 型 选择 的 准则 以 及 模型 学 习 的 算法 ， 称 其 为 统计 学 习 方法 的 三 要 素 ， 简 称 
为 模型 (model)、 策 略 〈strategy) 和 算法 〈algorithm ). 

实现 统计 学 习 方法 的 步骤 如 下 : 

(1) 得 到 一 个 有 限 的 训练 数据 集合 ; 

(2) 确定 包含 所 有 可 能 的 模型 的 假设 空间 ， 即 学 习 模型 的 集合 ; 

(3) 确定 模型 选择 的 准则 ， 即 学 习 的 策略 ; 

(4) 实现 求解 最 优 模型 的 算法 ， 即 学 习 的 算法 ; 

(5) 通过 学 习 方 法 选择 最 优 模型 ; 

(6) 利用 学 习 的 最 优 模型 对 新 数据 进行 预测 或 分 析 . 

本 书 以 介绍 统计 学 习 方法 为 主 , 特别 是 监督 学 习 方 法 ， 主 要 包括 用 于 分 类 、 标 
注 与 回归 问题 的 方法 . 这 些 方法 在 自然 语言 处 理 、 信 息 检 索 、 文 本 数据 挖掘 等 领 
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域 中 有 着 极其 广泛 的 应 用 . 
5， 统 计 学 习 的 研究 


统计 学 习 研 究 一 般 包括 统计 学 习 方 法 (statistical learning method)、 统 计 学 习 
理论 (statistical learning theory) 及 统计 学 习 应 用 (application of statistical learning) 
三 个 方面 . 统计 学 习 方 法 的 研究 由 在 开发 新 的 学 习 方 法 ,统计 学 习 理 论 的 研究 在 
于 探求 统计 学 习 方法 的 有 效 性 与 效率 ， 以 及 统计 学 习 的 基本 理论 问题 ; 统计 学 习 
应 用 的 研究 主要 考虑 将 统计 学 习 方法 应 用 到 实际 问题 中 去 ， 解 决 实际 问题 . 


6， 统 计 学 习 的 重要 性 


近 20 年 来 ， 统 计 学 习 无 论 是 在 理论 还 是 在 应 用 方面 都 得 到 了 巨大 的 发 展 ， 有 
许多 重大 突破 ， 统 计 学 习 已 被 成 功 地 应 用 到 人 工 智能 、 模 式 识别 、 数 据 挖掘、 自 
然 语 言 处 理 、 语 音 识 别 、 图 像 识别 、 信 息 检索 和 生物 信息 等 许多 计算 机 应 用 领域 
中 ， 并 且 成 为 这 些 领域 的 核心 技术 . 人们 确信 ， 统 计 学 习 将 会 在 今后 的 科学 发 展 
和 技术 应 用 中 发 挥 越 来 越 大 的 作用 . 

统计 学 习 学 科 在 科学 技术 中 的 重要 性 主要 体现 在 以 下 儿 个 方面 : 

《1) 统计 学 习 是 处 理 海量 数据 的 有 效 方 法 .我们 处 于 一 个 信息 爆炸 的 时 代 ， 
海量 数据 的 处 理 与 利用 是 人 们 必然 的 需求 . 现实 中 的 数据 不 但 规模 大 ， 而 且 常 党 
具有 不 确定 性 ， 统 计 学 习 往 往 是 处 理 这 类 数据 最 强 有 力 的 工具 

(2) 统计 学 习 是 计算 机 智能 化 的 有 效 手 段 . 智能 化 是 计算 机 发 展 的 必然 趋势 ， 
也 是 计算 机 技术 研究 与 开发 的 主要 目标 . 近 几 十 年 来 ， 人工 智 能 等 领域 的 研究 表 
明 ， 利 用 统计 学 习 模仿 人 类 智能 的 方法 ， 虽 有 一 定 的 局 限 性 ， 但 仍然 是 实现 这 一 
目标 的 最 有 效 手段 . 

(3) 统计 学 习 是 计算 机 科学 发 展 的 一 个 重要 组 成 部 分 . 可 以 认为 计算 机 科学 
由 三 维 组 成 : 系统、 计算 、 信 息 .统计 学 习 主要 属于 信息 这 一 维 ， 并 在 其 中 起 着 
核心 作用 . 
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统计 学 习 包 括 监督 学 习 、 非 监督 学 习 、 半 监督 学 习 及 强化 学 习 . 本 书 主要 讨 
论 监督 学 习 问 题 

监督 学 习 〈supervised learning) 的 任务 是 学 习 一 个 模型 ， 使 模型 能 够 对 任意 
给 定 的 输入 ， 对 其 相应 的 输出 做 出 一 个 好 的 预测 〈 注 意 ， 这 里 的 输入 、 输 出 是 指 
某 个 系统 的 输入 与 输出 ， 与 学 习 的 输入 与 输出 不 同 )， 计 算 机 的 基本 操作 就 是 给 
定 一 个 输入 产生 一 个 输出 ， 所 以 监督 学 习 是 极其 重要 的 统计 学 习 分 支 ， 也 是 统计 
学 习 中 内 容 最 丰富 、 应 用 最 广泛 的 部 分 
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1.2.1 基本 概念 


1， 输 入 空间 、 特 征 空间 与 输出 空间 


在 监督 学 习 中 ,将 输入 与 输出 所 有 可 能 取 值 的 集合 分 别称 为 输入 空间 (input 
space) 与 输出 空间 〈output space). 输入 与 输出 空间 可 以 是 有 限 元 素 的 集合 ， 也 
可 以 是 整个 欧 氏 空间 . 输入 空间 与 输出 空间 可 以 是 同一 个 空间 ， 也 可 以 是 不 同 的 
空间 ， 但 通常 输出 空间 远 远 小 于 输入 空间 . 

每 个 具体 的 输入 是 一 个 实例 (instance)， 通常 由 特征 向 量 (feature vector) 表 
示 . 这 时 ， 所 有 特征 向 量 存在 的 空间 称 为 特征 空间 (feature space)， 特 征 空间 的 
每 一 维 对 应 于 一 个 特征 . 有 时 假设 输入 空间 与 特征 空间 为 相同 的 空间 ， 对 它们 不 
予 区 分 ， 有 时 假设 输入 空间 与 特征 空间 为 不 同 的 空间 ， 将 实例 从 输入 空间 映射 到 
特征 空间 ， 模 型 实际 上 都 是 定义 在 特征 空间 上 的 . 

在 监督 学 习 过 程 中 ， 将 输入 与 输出 看 作 是 定义 在 输入 〈 特 征 ) 空间 与 输出 空 
间 上 的 随机 变量 的 取 值 . 输入 、 输 出 变量 用 大 写字 母 表示 ， 习 惯 上 输入 变量 写作 
为 输出 变量 写作 了 ， 输 入、 输出 变量 所 取 的 值 用 小 写字 母 表示 ， 输 入 变量 的 取 
值 写作 * ， 输 出 变量 的 取 值 写作 .变量 可 以 是 标量 或 向 量 ， 都 用 相同 类 型 字母 
表示 ， 除 特别 声明 外 ， 本 书 中 向 量 均 为 列 向 量 ， 输 入 实例 x 的 特征 向 量 记 作 








x =x), x0 ,0 x 


x 表示 x 的 第 i 个 特征 . 注意 ，x 中 与 x 不 同 ， 本 书 通常 用 x 表示 多 个 输入 变量 
中 的 第 i 个 ， 即 


= (x x’ (nT 
= ) 


监督 学 习 从 训练 数据 (training data) 集合 中 学 习 模 型 ， 对 测试 数据 (test data) 
进行 预测 。 训 练 数据 由 输入 或 特征 向 量 ) 与 输出 对 组 成 ， 训 练 集 通常 表示 为 


T={(%,7),(%, 2) ,xys Py)} 


测试 数据 也 由 相应 的 输入 与 输出 对 组 成 .输入 与 输出 对 又 称 为 样本 (sample) 或 
样本 点 . 

输入 变量 天 和 输出 变量 有 不 同 的 类 型 , 可 以 是 连续 的 , 也 可 以 是 离散 的 . 人 
们 根据 输入 、 输 出 变量 的 不 同类 型 ， 对 预测 任务 给 予 不 同 的 名 称 : 输入 变量 与 输 
出 变量 均 为 连续 变量 的 预测 问题 称 为 回归 问题 ; 输出 变量 为 有 限 个 离散 变量 的 预 
测 问题 称 为 分 类 问题 ， 输 入 变量 与 输出 变量 均 为 变量 序列 的 预测 问题 称 为 标注 
问题 . 
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2， 联 合 概率 分 布 


监督 学 习 假设 输入 与 输出 的 随机 变量 瑟 和 了 遵循 联合 概率 分 布 P(X,7). 
P(X,7) 表示 分 布 函数 ， 或 分 布 密度 函数 . 注意 ， 在 学 习 过 程 中 ， 假 定 这 一 联合 
概率 分 布 存在 ， 但 对 学 习 系统 来 说 ， 联 合 概率 分 布 的 具体 定义 是 未 知 的， 训练 数 
据 与 测试 数据 被 看 作 是 依 联合 概率 分 布 P(X,Y) 独立 同 分 布 产生 的 .统计 学 习 假 
设 数据 存在 一 定 的 统计 规律 , 志和 了 具有 联合 概率 分 布 的 假设 就 是 监督 学 习 关于 
数据 的 基本 假设 . 


3， 假 设 空间 


监督 学 习 的 目的 在 于 学 习 一 个 由 输入 到 输出 的 映射 ， 这 一 映射 由 模型 来 表 
示 . 换 旬 话说 ， 学 习 的 目的 就 在 于 找到 最 好 的 这 样 的 模型 .模型 属于 由 输入 空间 
到 输出 空间 的 映射 的 集合 ， 这 个 集合 就 是 假设 空间 (hypothesis space). 假设 空间 
的 确定 意味 着 学 习 范 围 的 确定 . 

监督 学 习 的 模型 可 以 是 概率 模型 或 非 概率 模型 ， 由 条 件 概率 分 布 PCY|X) 或 
决策 函数 〈decision function) Y= f(X) 表示 ， 随 具体 学 习 方法 而 定 . 对 具体 的 输 
入 进行 相应 的 输出 预测 时 ， 写 作 POy| 习 或 ?= f(x) . 


1.2.2 ”问题 的 形式 化 


监督 学 习 利用 训练 数据 集 学 习 一 个 模型 ， 再 用 模型 对 测试 样本 集 进行 预测 
《prediction)， 由 于 在 这 个 过 程 中 需要 训练 数据 集 ， 而 训练 数据 集 往往 是 人 工 给 出 
的 ， 所 以 称 为 监督 学 习 . 监督 学 习 分 为 学 习 和 预测 两 个 过 程 ， 由 学 习 系统 与 预测 系 
统 完成 ， 可 用 图 1.1 来 描述 . 









(Xi), e232) Kyayy) 





学 习 系统 


XN+l 





图 1.1 监督 学 习 问 题 


首先 给 定 一 个 训练 数据 集 
T={06,7),6,»),, (xy, py)} 
其 中 (x,y)，i=12,…,N ， 称 为 样本 或 样本 点 ，x,e XX cR' 是 输入 的 观测 值 ， 
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也 称 为 输入 或 实例 ，y,e 2 是 输出 的 观测 值 ， 也 称 为 输出 , 

监督 学 习 中 ， 假 设 训 练 数据 与 测试 数据 是 依 联合 概率 分 布 P(X,Y) 独立 同 分 
布 产生 的 ， 

在 学 习 过 程 中 ， 学 习 系 统 利用 给 定 的 训练 数据 集 ， 通 过 学 习 〈 或 训练 ) 得 到 
一 个 模型 ， 表 示 为 条 件 概率 分 布 A(Y|X) 或 决策 函数 了 = 六 Z) ， 条件 概率 分 布 
AP(Y1X) 或 决策 函数 Y= 了 (X) 描述 输入 与 输出 随机 变量 之 间 的 映射 关系 . 

在 预测 过 程 中 ， 预 测 系 统 对 于 给 定 的 测试 样本 集中 的 输入 xy,, ， 由 模型 
Dr =arg max Own | zw 或 wu = 了 (xww) 给 出 相应 的 输出 ， 

在 学 习 过 程 中 ， 学 习 系 统 〈 也 就 是 学 习 算 法 ) 试图 通过 训练 数据 集中 的 样本 
(w%, 力 ) 带 来 的 信息 学 习 模 型 ,具体 地 说 ， 对 输入 x,， 一 个 具体 的 模型 y= f(x) 可 
以 产生 一 个 输出 f(x,) ， 而 训练 数据 集中 对 应 的 输出 是 y,， 如 果 这 个 模型 有 很 好 
的 预测 能 力 ， 训 练 样本 输出 y, 和 模型 输出 f(x,) 之 间 的 差 就 应 该 足够 小 ， 学 习 系 
统 通过 不 断 的 尝试 ， 选 取 最 好 的 模型 ， 以 便 对 训练 数据 集 有 足够 好 的 预测 ， 同 时 
对 未 知 的 测试 数据 集 的 预测 也 有 尽 可 能 好 的 推广 . 


1.3 ”统计 学 习 三 要 素 


统计 学 习 方 法 都 是 由 模型 、 策 略 和 算法 构成 的 ， 即 统计 学 习 方法 由 三 要 素 构 
成 ， 可 以 简单 地 表示 为 
方法 = 模型 十 策略 十 算法 
下 面 论述 监督 学 习 中 的 统计 学 习 三 要 素 . 非 监督 学 习 、 强 化 学 习 也 同样 拥有 
这 三 要 素 . 可 以 说 构建 一 种 统计 学 习 方 法 就 是 确定 具体 的 统计 学 习 三 要 素 . 


1.3.1 模型 


统计 学 习 首要 考虑 的 问题 是 学 习 什 么 样 的 模型 . 在 监督 学 习 过 程 中 ， 模 型 就 
是 所 要 学 习 的 条 件 概率 分 布 或 决策 函数 .模型 的 假设 空间 (hypothesis space) 包 
含 所 有 可 能 的 条 件 概率 分 布 或 决策 函数 例如 ， 假 设 决 策 函 数 是 输入 变量 的 线性 
函数 ， 那 么 模型 的 假设 空间 就 是 所 有 这 些 线性 函数 构成 的 函数 集合 ， 假 设 空间 中 
的 模型 一 般 有 无 穷 多 个 . 
假设 空间 用 大 表示 .假设 空间 可 以 定义 为 决策 函数 的 集合 
fF={f17=/f(2)} (1.1) 
其 中 , 了 X 和 了 是 定义 在 输入 空间 xX 和 输出 空间 》 上 的 变量 . 这 时 下 通常 是 由 一 个 
参数 向 量 决定 的 函数 族 : 
F={f17Y=f(X),0e R"} (12) 
参数 向 量 9 取 值 于 n 维 欧 氏 空间 R"， 称 为 参数 空间 (parameter space). 
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假设 空间 也 可 以 定义 为 条 件 概率 的 集合 
F={PIPO|X)} (1.3) 
其 中 , 瑟 和 了 是 定义 在 输入 空间 车 和 输出 空间 了》 上 的 随机 变量 .这 时 丰 通常 是 由 
一 个 参数 向 量 决定 的 条 件 概率 分 布 族 : 


F={PIB(Y|X),0e R"} (14) 


参数 向 量 9 取 值 于 n 维 网 氏 空间 R”"， 也 称 为 参数 空间 . 
本 书 中 称 由 决策 函数 表示 的 模型 为 非 概率 模型 ， 由 条 件 概率 表示 的 模型 为 概 
率 模型 为 了 简便 起 见 ， 当 论 及 模型 时 ， 有 时 只 用 其 中 一 种 模型 


1.3.2 策略 


有 了 模型 的 假设 空间 , 统计 学 习 接着 需要 考虑 的 是 按照 什么 样 的 准则 学 习 或 
选择 最 优 的 模型 .统计 学 习 的 目标 在 于 从 假设 空间 中 选取 最 优 模 型 . 

首先 引入 损失 函数 与 风险 函数 的 概念 ,损失 函数 度量 模型 一 次 预测 的 好 坏 ， 
风险 函数 度量 平均 意义 下 模型 预测 的 好 坏 . 

1， 损 失 函 数 和 风险 函数 

监督 学 习 问 题 是 在 假设 空间 天 中 选取 模型 了 作为 决策 函数 ,对 于 给 定 的 输入 
XX 由 f(X) 给 出 相应 的 输出 YF， 这 个 输出 的 预测 值 /(X) 与 真实 值 了 可 能 一 致 也 
可 能 不 一 致 ， 用 一 个 损失 函数 〈loss function) 或 代价 函数 〈cost function) 来 度量 
预测 错误 的 程度 ， 损 失 函数 是 A(X) 和 了 的 非 负 实 值 函数 ， 记 作 Z(Z, f(X))， 

统计 学 习 常用 的 损失 函数 有 以 下 几 种 ; 

(1) 0-1 损失 函数 〈0-1 loss function) 


ceon)= 人 * Ma (5) 


《2) 平方 损失 函数 《quadratic loss function) 

ZY, (XD)= ~-f0)) {1.6) 
(3) 绝对 损失 函数 《absolute loss function) 

LY, A(X)=I7-f(2)| (7) 
(4) 对 数 损失 函数 〈logarithmic loss function》 或 对 数 似 然 损 失 函 数 (log- 


jikelihood loss function) 
L(Y,P(Y|X)=-logP(Y |X) (1.8) 
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损失 函数 值 越 小 ， 模 型 就 越 好 .由 于 模型 的 输入 、 输 出 (X, 了 7) 是 随机 变量 ， 遵 
循 联合 分 布 P(X,Y)， 所 以 损失 函数 的 期 望 是 


Rslf)= EolL(Y, (XN)]= 人 Zoo CDP, pdrdy (1.9) 


这 是 理论 上 模型 f() 关于 联合 分 布 P(X,7) 的 平均 意义 下 的 损失 , 称 为 风险 函数 
(risk function》 或 期 望 损失 (expected loss). 

学 习 的 目标 就 是 选择 期 望 风 险 最 小 的 模型 . 由 于 联合 分 布 P(X,Y) 是 未 知 的 ， 
Rs。(7) 不 能 直接 计算 .实际 上 ， 如 果 知 道 联 合 分 布 P(X,Y)， 可 以 从 联合 分 布 直 
接 求 出 条 件 概率 分 布 P(Y|X) , 也 就 不 需要 学 习 了 . 正 因为 不 知道 联合 概率 分 布 ， 
所 以 才 需 要 进行 学 习 . 这 样 一 来 ， 一 方面 根据 期 望 风险 最 小 学 习 模型 要 用 到 联合 
分 布 ， 另 一 方面 联合 分 布 又 是 未 知 的 ， 所 以 监督 学 习 就 成 为 一 个 病态 问题 
(ill-formed problem). 

给 定 一 个 训练 数据 集 


T={(4,7), ,2), ,ys yy)} 


模型 J(X) 关于 训练 数据 集 的 平均 损失 称 为 经 验 风险 (empirical risk) 或 经 验 损失 
(empirical loss)， 记 作 Re : 


Raat) = L000) .10) 
t=] 


期 望 风险 R,,(/) 是 模型 关于 联合 分 布 的 期 望 损失 ， 经 验 风 险 R.,,(/) 是 模型 
关于 训练 样本 集 的 平均 损失 . 根据 大 数 定律 ， 当 样本 容量 入 趋 于 无 穷 时 ， 经验 风 
险 Ra。( 门 赵 于 期 望 风险 R,,(f). 所 以 一 个 很 自然 的 想法 是 用 经 验 风险 估计 期 望 
风险 ,但 是 ， 由 于 现实 中 训练 样本 数目 有 限 ， 甚 至 很 小 ， 所 以 用 经 验 风险 估计 期 
望 风 险 常常 并 不 理想 ， 要 对 经 验 风险 进行 一 定 的 矫正 . 这 就 关系 到 监督 学 习 的 两 
个 基本 策略 :经 验 风险 最 小 化 和 结构 风险 最 小 化 . 


2， 经 验 风险 最 小 化 与 结构 风险 最 小 化 


在 假设 空间 、 损失 函数 以 及 训练 数据 集 确定 的 情况 下 , 经 验 风险 函数 式 (1.10) 
就 可 以 确定 . 经 验 风险 最 小 化 《empirical risk minimization，ERM) 的 策略 认为 ， 
经 验 风险 最 小 的 模型 是 最 优 的 模型 .根据 这 一 策略 ， 按 照 经 验 风险 最 小 化 求 最 优 
模型 就 是 求解 最 优化 问题 : 


N 
型 六 LOw7G) GLI) 


其 中 , 大 是 假设 空间 . 
当 样 本 容量 足够 大 时 ， 经 验 风险 最 小 化 能 保证 有 很 好 的 学 习 效果 ， 在 现实 中 
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被 广泛 采用 .比如 ， 极 大 似 然 估计 《maximum likelihood estimation》 就 是 经 验 风 
险 最 小 化 的 一 个 例子 ， 当 模型 是 条 件 概率 分 布 ， 损 失 函 数 是 对 数 损失 函数 时 ， 经 
验 风险 最 小 化 就 等 价 于 极 大 似 然 估 计 . 

但 是 ， 当 样本 容量 很 小 时 ， 经 验 风 险 最 小 化 学 习 的 效果 就 未 必 很 好 ， 会 产生 
后 面 将 要 叙述 的 “过 拟 合 (over-fitting)” 现 象 . 

结构 风险 最 小 化 (structural risk minimization，SRM) 是 为 了 防止 过 拟 合 而 提 
出 来 的 策略 .结构 风险 最 小 化 等 价 于 正则 化 〈regularization). 结构 风险 在 经 验 风 
险 上 加 上 表示 模型 复杂 度 的 正则 化 项 〈regularizer) 或 罚 项 〈penalty term)， 在 假 
设 空间 、 损 失 函 数 以 及 训练 数据 集 确定 的 情况 下 ， 结 构 风险 的 定义 是 


Ra (N= LO D+ A) (1.12) 
i=] 


其 路 (了) 为 模型 的 复杂 度 ， 是 定义 在 假设 空间 下 上 的 泛 函 ， 模 型 / 越 复杂 ， 复 
杂 度 7( 了 /) 就 越 大 ， 反 之 ， 模 型 越 简 单 ， 复 杂 度 (了 ) 就 越 小 ， 也 就 是 说 ， 复 杂 
度 表 示 了 对 复杂 模型 的 惩罚 . 4 > 0 是 系数 , 用 以 权衡 经 验 风险 和 模型 复杂 度 . 结 
构 风 险 小 需要 经 验 风险 与 模型 复杂 度 同 时 小 . 结构 风险 小 的 模型 往往 对 训练 数据 
以 及 未 知 的 测试 数据 都 有 较 好 的 预测 . 

比如 ， 贝 叶 斯 估计 中 的 最 大 后 验 概率 估计 (maximum posterior probability 
estimation，MAP) 就 是 结构 风险 最 小 化 的 一 个 例子 . 当 模型 是 条 件 概率 分 布 、 损 
失 函 数 是 对 数 损失 函数 、 模 型 复杂 度 由 模型 的 先 验 概率 表示 时 ， 结 构 风 险 最 小 化 
就 等 价 于 最 大 后 验 概率 估计 . 

结构 风险 最 小 化 的 策略 认为 结构 风险 最 小 的 模型 是 最 优 的 模型 . 所 以 求 最 优 
模型 ， 就 是 求解 最 优化 问题 : 


min 坟 这 xcoo (x)+AT(F) (1.13) 


这 样 ， 监 督学 习 问 题 就 变 成 了 经 验 风 险 或 结构 风险 函数 的 最 优化 问题 (1.11) 
和 (1.13)， 这 时 经 验 或 结构 风险 函数 是 最 优化 的 目标 函数 . 


1.3.3 算法 


算法 是 指 学 习 模型 的 具体 计算 方法 . 统计 学 习 基于 训练 数据 集 ， 根 据 学 习 策 
略 ,从 假设 空间 中 选择 最 优 模型 ,最 后 需要 考虑 用 什么 样 的 计算 方法 求解 最 优 模 型 . 
这 时 ， 统 计 学 习 问题 归结 为 最 优化 问题 ， 统 计 学 习 的 算法 成 为 求解 最 优化 问 
题 的 算法 . 如果 最 优化 问题 有 显 式 的 解析 解 ， 这 个 最 优化 问题 就 比较 简单 .但 通 
常 解析 解 不 存在 ， 这 就 需要 用 数值 计算 的 方法 求解 ， 如何 保 证 找到 全 局 最 优 解 ， 
并 使 求解 的 过 程 非常 高 效 ， 就 成 为 一 个 重要 问题 . 统计 学 习 可 以 利用 已 有 的 最 优 
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化 算法 ， 有 时 也 需要 开发 独自 的 最 优化 算法 . 

统计 学 习 方 法 之 间 的 不 同 ， 主 要 来 自 其 模型 、 策 略 、 算 法 的 不 同 . 确定 了 模 
型 、 策 略 、 算 法 ， 统 计 学 习 的 方法 也 就 确定 了 . 这 也 就 是 将 其 称 为 统计 学 习 三 要 
素 的 原因 . 


1.4 模型 评估 与 模型 选择 


1.4.1 “训练 误差 与 测试 误差 


统计 学 习 的 目的 是 使 学 到 的 模型 不 仅 对 已 知 数据 而 且 对 未 知 数据 都 能 有 很 
好 的 预测 能 力 . 不 同 的 学 习 方 法 会 给 出 不 同 的 模型 . 当 损失 函数 给 定时 ， 基 于 损 
失 函 数 的 模型 的 训练 误差 (training error) 和 模型 的 测试 误差 (test error) 就 自然 
成 为 学 习 方 法 评估 的 标准 . 注意 ， 统 计 学 习 方法 具体 采用 的 损失 函数 未 必 是 评估 
时 使 用 的 损失 函数 .当然 ， 让 两 者 一 致 是 比较 理想 的 . 

假设 学 习 到 的 模型 是 了 = 了 (X) ， 训 练 误差 是 模型 了 7= A(X) 关于 训练 数据 集 
的 平均 损失 : 


Rs =O ee) (14) 
其 中 入 是 训练 样本 容量 ， 
测试 误差 是 模型 了 = 7(X) 关于 测试 数据 集 的 平均 损失 : 
7) (15) 
其 中 必 是 测试 样本 容量 . 


例如 ， 当 损失 函数 是 0-1 损失 时 ， 测 试 误差 就 变 成 了 常见 的 测试 数据 集 上 的 
误差 率 (error rate) 


su -0 # f(x)) (1.16) 
这 里 7 是 指示 函数 〈indicator function)， 即 yz 了 (x) 时 为 1， 否 则 为 0. 
相应 地 ， We Caccuracy) 为 
志 这 ro- f(x) (1.17) 
显然 ， 


ies + Coa =1 
训练 误差 的 大 小 ， 对 判断 给 定 的 问题 是 不 是 一 个 容易 学 习 的 问题 是 有 意义 
的 , 但 本 质 上 不 重要 . 测试 误差 反映 了 学 习 方法 对 未 知 的 测试 数据 集 的 预测 能 力 ， 
是 学 习 中 的 重要 概念 显然， 给 定 两 种 学 习 方法 ， 测 试 误差 小 的 方法 具有 更 好 的 
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预测 能 力 ， 是 更 有 效 的 方法 . 通常 将 学 习 方 法 对 未 知 数据 的 预测 能 力 称 为 泛 化 能 
力 〈generalization ability)， 这 个 问题 将 在 1.6 节 继 续 论述 . 


1.4.2 ”过 拟 合 与 模型 选择 


当 假 设 空间 含有 不 同 复杂 度 〈 例 如 ， 不 同 的 参数 个 数 ) 的 模型 时 ， 就 要 面临 
模型 选择 (model selection) 的 问题 . 我 们 希望 选择 或 学 习 一 个 合适 的 模型 . 如 果 
在 假设 空间 中 存在 “ 真 ” 模 型 ， 那 么 所 选择 的 模型 应 该 逼近 真 模型 ， 具 体 地 ， 所 
选择 的 模型 要 与 真 模型 的 参数 个 数 相同 ， 所 选择 的 模型 的 参数 向 量 与 真 模型 的 参 
数 向 量 相近 . 

如 果 一 味 追 求 提高 对 训练 数据 的 预测 能 力 ， 所 选 模型 的 复杂 度 则 往往 会 比 真 
模型 更 高 ,这 种 现象 称 为 过 拟 合 (over-fitting). 过 拟 合 是 指 学 习 时 选择 的 模型 所 
包含 的 参数 过 多 ， 以 致 于 出 现 这 一 模型 对 已 知 数据 预测 得 很 好 ， 但 对 未 知 数据 预 
测 得 很 差 的 现象 ， 可 以 说 模型 选择 旨 在 避免 过 拟 合并 提高 模型 的 预测 能 力 . 

下 面 ， 以 多 项 式 函数 拟 合 问题 为 例 ， 说 明 过 拟 合 与 模型 选择 这 是 一 个 回归 
问题 . 
例 1.1 假设 给 定 一 个 训练 数据 集 ”: 


T={(%,»),%2,»), (xy yn)} 


其 中 ,xe R 是 输入 x 的 观测 值 , y, e R 是 相应 的 输出 y 的 观测 值 , i=1,2,…, .多 
项 式 函 数 拟 合 的 任务 是 假设 给 定数 据 由 M 次 多 项 式 函数 生成 ,选择 最 有 可 能 产生 
这 些 数据 的 M 次 多 项 式 函数 ， 即 在 M 次 多 项 式 函数 中 选择 一 个 对 已 知 数据 以 及 
未 知 数据 都 有 很 好 预测 能 力 的 函数 . 

假设 给 定 如 图 1.2 所 示 的 10 个 数据 点 ， 用 0~9 次 多 项 式 函数 对 数据 进行 拟 
合 . 图 中 画 出 了 需要 用 多 项 式 函数 曲线 拟 合 的 数据 . 

设 M 次 多 项 式 为 


mM 
fu W)= Wt mt tt Wy = wx 
i=0 


式 中 x 是 单 变 量 输入 ，w,w…,wy 是 M+1 个 参数 . 

解决 这 一 问题 的 方法 可 以 是 这 样 的 . 首先 确定 模型 的 复杂 度 ， 即 确定 多 项 式 
的 次 数 ， 然 后 在 给 定 的 模型 复杂 度 下 ， 按 照 经 验 风险 最 小 化 的 策略 ， 求 解 参数 ， 
即 多 项 式 的 系数 ， 具 体 地 ， 求 以 下 经 验 风 险 最 小 化 : 


y 
LW -T0650D-») (1.18) 
i=] 





@ 本 例 来 自 参考 文献 [3]. 
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图 1.2 M 次 多 项 式 函数 拟 合 问题 的 例子 


这 时 ， 损 失 函 数 为 平方 损失 ， 系数 是 为 了 计算 方便 . 
这 是 一 个 简单 的 最 优化 问题 ， 将 模型 与 训练 数据 代入 式 (1.18) 中 ， 有 
oo 过 将 -让 
对 w, 求 偏 导数 并 令 其 为 0， 可 得 
Sx 


Wi = 导 j=0,1,2,,M 





于 是 求 得 拟 合 多 项 式 系数 如 ,sw 

图 12 给 出 了 M=0，M=1，M=3 及 M=9 时 多 项 式 函数 拟 合 的 情况 ， 如 
果 M=0， 多 项 式 曲线 是 一 个 常数 ， 数 据 拟 合 效 果 很 差 . 如 果 M =1， 多 项 式 曲 
线 是 一 条 直线 ， 数 据 拟 合 效果 也 很 差 . 相反， 如果 M =9 ， 多 项 式 曲线 通过 每 个 
数据 点 ， 训 练 误差 为 0。 从 对 给 定 训练 数据 拟 合 的 角度 来 说 ， 效 果 是 最 好 的 . 但 
是 ， 因 为 训练 数据 本 身 存 在 噪声 ， 这 种 拟 合 曲线 对 未 知 数据 的 预测 能 力 往往 并 不 
是 最 好 的 ， 在 实际 学 习 中 并 不 可 取 . 这 时 过 拟 合 现象 就 会 发 生 ， 这 就 是 说 ， 模 型 
选择 时 ， 不 仅 要 考虑 对 已 知 数据 的 预测 能 力 ， 而 且 还 要 考虑 对 未 知 数据 的 预测 能 
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力 . 当 M =3 时 ， 多 项 式 曲线 对 训练 数据 拟 合 效 果 足 够 好 ， 模 型 也 比较 简单 ， 是 
一 个 较 好 的 选择 . m 

在 多 项 式 函 数 拟 合 中 可 以 看 到 ， 随 着 多 项 式 次 数 模 型 复杂 度 〉 的 增加 ， 训 
练 误差 会 减 小 , 直至 趋向 于 0, 但 是 测试 误差 却 不 如 此 , 它 会 随 着 多 项 式 次 数 ( 模 
型 复杂 度 ) 的 增加 先 减 小 而 后 增 大 . 而 最 终 的 目的 是 使 测试 误差 达到 最 小 . 这 样 ， 
在 多 项 式 函数 拟 合 中 ， 就 要 选择 合适 的 多 项 式 次 数 ， 以 达到 这 一 目的 ,这 一 结论 
对 一 般 的 模型 选择 也 是 成 立 的 . 

图 1.3 描述 了 训练 误差 和 测试 误差 与 模型 的 复杂 度 之 间 的 关系 ， 当 模型 的 复 
杂 度 增 大 时 ， 训 练 误差 会 逐渐 减 小 并 趋向 于 0; 而 测试 误差 会 先 减 小 ， 达 到 最 小 值 
后 又 增 大 ,当选 择 的 模型 复杂 度 过 大 时 ， 过 拟 合 现象 就 会 发 生 . 这 样 ， 在 学 习 时 就 
要 防止 过 拟 合 ， 进 行 最 优 的 模型 选择 ， 即 选择 复杂 度 适 当 的 模型 ， 以 达到 使 测试 误 
差 最 小 的 学 习 目的 ， 下面 介绍 两 种 常用 的 模型 选择 方法 ;正则 化 与 交叉 验证 ， 


训练 误差 











预测 误差 








模型 复杂 度 
图 1.3 训练 误差 和 测试 误差 与 模型 复杂 度 的 关系 


1.5 正则 化 与 交叉 验证 
1.5.1 正则 化 


模型 选择 的 典型 方法 是 正则 化 (regularization). 正则 化 是 结构 风险 最 小 化 策 
略 的 实现 , 是 在 经 验 风 险 上 加 一 个 正则 化 项 (regularizer) 或 罚 项 (penalty term). 正 
则 化 项 一 般 是 模型 复杂 度 的 单调 递增 函数 ,模型 越 复杂 , 正则 化 值 就 越 大 . 比如 ， 
正则 化 项 可 以 是 模型 参数 向 量 的 范 数 
正则 化 一 般 具 有 如 下 形式 : 
eh 
mip NOLO ED)+HYN (1.19) 


其 中 , 第 1 项 是 经 验 风险 , 第 2 项 是 正则 化 项 ，14. > 0 为 调整 两 者 之 间 关系 的 系数 . 
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正则 化 项 可 以 取 不 同 的 形式 . 例如 ， 回 归 问题 中 ， 损 失 函 数 是 平方 损失 ， 正 
则 化 项 可 以 是 参数 向 量 的 工 范 数 : 


LW)=BDUG -m7 +l 
iel 


这 里 ，||w|| 表 示 参 数 向 量 w 的 工 范 数 . 
正则 化 项 也 可 以 是 参数 向 量 的 五 范 数 


LW=HEUGD -7 + A 


这 里 ，||ww 外 表示 参数 向 量 w 的 厂 范 数 ， 

第 1 项 的 经 验 风险 较 小 的 模型 可 能 较 复杂 (有 多 个 非 零 参数 )， 这 时 第 2 项 的 
模型 复杂 度 会 较 大 ， 正 则 化 的 作用 是 选择 经 验 风险 与 模型 复杂 度 同时 较 小 的 模型 . 
正则 化 符合 奥 卡 姆 剃刀 (Occam's razon) 原 理 ， 奥 卡 姆 剃刀 原理 应 用 于 模型 先 
择 时 变 为 以 下 想法 : 在 所 有 可 能 选择 的 模型 中 ， 能 够 很 好 地 解释 已 知 数据 并 且 十 
分 简单 才 是 最 好 的 模型 ， 也 就 是 应 该 选择 的 模型 ， 从 贝 叶 斯 估计 的 角度 来 看 ， 正 
则 化 项 对 应 于 模型 的 先 验 概率 . 可 以 假设 复杂 的 模型 有 较 大 的 先 验 概率 ， 简 单 的 
模型 有 较 小 的 先 验 概率 . 


1.5.2 ”交叉 验证 


另 一 种 常用 的 模型 选择 方法 是 交 又 验证 (cross validation). 

如 果 给 定 的 样本 数据 充足 ， 进 行 模型 选择 的 一 种 简单 方法 是 随机 地 将 数据 集 
切 分 成 三 部 分 ， 分 别 为 训练 集 (training set)、 验 证 集 (validation set) 和 测试 集 (test 
seb， 训 练 集 用 来 训练 模型 ， 验 证 集 用 于 模型 的 选择 ， 而 测试 集 用 于 最 终 对 学 习 
方法 的 评估 . 在 学 习 到 的 不 同 复杂 度 的 模型 中 ， 选 择 对 验证 集 有 最 小 预测 误差 的 
模型 ， 由 于 验证 集 有 足够 多 的 数据 ， 用 它 对 模型 进行 选择 也 是 有 效 的 . 

但 是 ， 在 许多 实际 应 用 中 数据 是 不 充足 的 . 为 了 选择 好 的 模型 ， 可 以 采用 交 
叉 验 证 方法 . 交叉 验证 的 基本 想法 是 重复 地 使 用 数据 : 把 给 定 的 数据 进行 切 分 , 将 
切 分 的 数据 集 组 合 为 训练 集 与 测试 集 ， 在 此 基础 上 反复 地 进行 训练 、 测 试 以 及 模 
型 选择 . 

1， 简 单 交 叉 验 证 


简单 交叉 验证 方法 是 : 首先 随机 地 将 已 给 数据 分 为 两 部 分 ， 一 部 分 作为 训练 
集 ， 另 一 部 分 作为 测试 集 (例如 ，70% 的 数据 为 训练 集 ，30% 的 数据 为 测试 集 )， 然 
后 用 训练 集 在 各 种 条 件 下 《〈 例 如， 不 同 的 参数 个 数 ) 训练 模型 ， 从 而 得 到 不 同 的 
模型 ， 在 测试 集 上 评价 各 个 模型 的 测试 误差 ， 选 出 测试 误差 最 小 的 模型 . 
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2，53 折 交 叉 验证 

应 用 最 多 的 是 5 折 交 叉 验 证 〈S-fold cross validation)， 方 法 如 下 : 首先 随机 地 
将 已 给 数据 切 分 为 8 个 互 不 相交 的 大 小 相同 的 子 集 ; 然后 利用 8 -1 个 子 集 的 数据 
训练 模 型 ， 利 用 余下 的 子 集 测试 模型 ; 将 这 一 过 程 对 可 能 的 5 种 选择 重复 进行 , 最 
后 选 出 5 次 评测 中 平均 测试 误差 最 小 的 模型 . 


3， 留 一 交叉 验证 


3 折 交 叉 验 证 的 特殊 情形 是 8S = N ， 称 为 留 一 交叉 验证 〈leave-one-out cross 
validation)， 往 往 在 数据 缺乏 的 情况 下 使 用 .这 里 ，N 是 给 定数 据 集 的 容量 . 
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1.6.1 泛 化 误差 


学 习 方法 的 泛 化 能 力 〈generalization ability) 是 指 由 该 方法 学 习 到 的 模型 对 
未 知 数据 的 预测 能 力 ， 是 学 习 方 法 本 质 上 重要 的 性 质 . 现实 中 采用 最 多 的 办 法 是 
通过 测试 误差 来 评价 学 习 方 法 的 泛 化 能 力 . 但 这 种 评价 是 依赖 于 测试 数据 集 
的 ， 因 为 测试 数据 集 是 有 限 的， 很 有 可 能 由 此 得 到 的 评价 结果 是 不 可 靠 的 .统计 
学 习 理论 试图 从 理论 上 对 学 习 方 法 的 泛 化 能 力 进行 分 析 . 

首先 给 出 泛 化 误差 的 定义 . 如 果 学 到 的 模型 是 广 ， 那 么 用 这 个 模型 对 未 知 数 
据 预测 的 误差 即 为 泛 化 误差 (generalization error》 


Rao = ELLY, XN]= [LO FNP yardy (1.20) 


泛 化 误差 反映 了 学 习 方 法 的 泛 化 能 力 ， 如 果 一 种 方法 学 习 的 模型 比 另 一 种 方法 学 
习 的 模型 具有 更 小 的 泛 化 误差 ， 那 么 这 种 方法 就 更 有 效 . 事实 上 ， 泛 化 误差 就 是 
所 学 习 到 的 模型 的 期 望 风险 . 


1.6.2 泛 化 误差 上 界 


学 习 方 法 的 泛 化 能 力 分 析 往往 是 通过 研究 泛 化 误差 的 概率 上 界 进行 的 ,简称 
为 泛 化 误差 上 界 〈generalization error bound). 具体 来 说 ， 就 是 通过 比较 两 种 学 习 方 
法 的 泛 化 误差 上 界 的 大 小 来 比较 它们 的 优 劣 . 泛 化 误差 上 界 通 常 具有 以 下 性 质 : 它 
是 样本 容量 的 函数 ， 当 样本 容量 增加 时 ， 泛 化 上 界 趋 于 0， 它 是 假设 空间 容量 
《capacity) 的 函数 ， 假 设 空间 容量 越 大 ， 模 型 就 越 难 学 ， 泛 化 误差 上 界 就 越 大 . 
下 面 给 出 一 个 简单 的 泛 化 误差 上 界 的 例子 ， 二 类 分 类 问题 的 泛 化 误差 上 界 . 
考虑 二 类 分 类 问题 。 已 知 训练 数据 集 T ={(%, 力 ),(%, 力 )…,(xw,py)} ， 它 是 
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从 联合 概率 分 布 P(X,Y) 独立 同 分 布 产 生 的 ，Xe R"，Ye 人 -b+ .假设 空间 是 
函数 的 有 限 集合 大 = { 帮 ,万 …, 万 }，qd 是 函数 个 数 . 设 了 是 从 天 中 选取 的 函数 . 损 
失 函 数 是 0-1 损失 . 关于 了 的 期 望 风 险 和 经 验 风 险 分 别 是 





RO) = ELLY, fC (121) 
R= 圳 SLO (22) 
经 验 风险 最 小 化 函数 是 
/y=argminR(/) (1.23) 
人 们 更 关心 的 是 六 的 泛 化 能 力 
Rs) = EL AGO (124) 


下 面 讨论 从 有 限 集合 王 ={ 玫 , 太 …, 记 } 中 任意 选 出 的 函数 了 的 泛 化 误差 上 界 . 

定理 1.1 ( 泛 化 误差 上 界 ) ”对 二 类 分 类 问题 ， 当 假设 空间 是 有 限 个 函数 的 集 
合 大 ={ 帮 ,及 万 时 ， 对 任意 一 个 函数 re 斑 ， 至 少 以 概率 1-5， 以 下 不 等 式 
成 立 : 


R(f)< RCf)+e(d,N,56) (1.25) 


其 中 ， e(d,N,5)= 专 ( osernej] (1.26) 


不 等 式 (1.25) 左 端 RCf) 是 泛 化 误差 ， 右 端 即 为 泛 化 误差 上 界 . 在 泛 化 误差 上 
界 中 ， 第 1 项 是 训练 误差 ， 训 练 误差 越 小 ， 泛 化 误差 也 越 小 . 第 2 项 e(q,N,5) 是 
的 单调 递减 函数 ， 当 N 趋 于 无 穷 时 趋 于 0; 同时 它 也 是 Vloga 阶 的 函数 ,假设 
空间 大 包含 的 函数 越 多 ， 其 值 越 大 . 

证 明 在 证 明 中 要 用 到 Hoeffding 不 等 式 ， 先 叙述 如 下 . 


设 5, = 六 世 是 独立 随机 变量 着, 六， 天 之 和 ,天 ELas 有 ]， 则 对 任意 1>0， 
i=l 
以 下 不 等 式 成 立 : 





-2 
P(S, -ES, 2) <exp| — 12 
中 二 二 G0 
PES, -9 =>)<ep| — 2 (1.28) 
Db a) 


对 任意 函数 fe 下 , 衣 (f) 是 入 个 独立 的 随机 变量 L(Y, /(X)) 的 样本 均值 , R(/) 
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是 随机 变量 L(Y, 了 (X)) 的 期 望 值 . 如 果 损 失 函 数 取 值 于 区 间 [0,1] , 即 对 所 有 i, [a,,b]= 
[0, 了 ], 那么 由 Hoeffding 不 等 式 (1.28) 不 难得 知 ， 对 >0， 以 下 不 等 式 成 立 : 
P(R(f)-R(f)>e)<exp(-2Ne’) 
由 于 下 ={fi, 记 …, 刀 } 是 一 个 有 限 集合 ， 故 
Pf e F: RO) -RA) 2)=P() RI) -Rf) >e)}) 
Jef 





< PRN -AR(f)>e) 
< es dN 
或 者 等 价 的 ， 对 任意 fe 三 有 
PCRCP)-RCP)< 晤 1-dexp(-2Ne2?) 


令 6=dexp(-2Ne’) (1.29) 


则 P(R(f)<R(f)+E)>1-6 
即 至 少 以 概率 1- 6 有 RCP)<RP)+E ， 其 中 e 由 式 (1.29) 得 到 ， 即 为 式 (1.26). 


从 泛 化 误差 上 界 可 知 ， 
RON < RW) + el(d,N,6) 


其 中 ，e(q,N,6) 由 式 (1.26) 定义 ，_f 由 式 (1.23) 定义 .这 就 是 说 ， 训 练 误差 小 
的 模型 ， 其 泛 化 误差 也 会 小 . 

以 上 讨论 的 只 是 假设 空间 包含 有 限 个 函数 情况 下 的 泛 化 误差 上 界 ,对 一 般 的 
假设 空间 要 找到 泛 化 误差 界 就 没有 这 么 简单 ， 这 里 不 作 介绍 . 


1.7 生成 模型 与 判别 模型 


监督 学 习 的 任务 就 是 学 习 一 个 模型 ， 应 用 这 一 模型 ， 对 给 定 的 输入 预测 相应 
的 输出 .这 个 模型 的 一 般 形式 为 决策 函数 : 
Y=f(X) 
或 者 条 件 概率 分 布 : 
PCF| 加 
监督 学 习 方法 又 可 以 分 为 生成 方法 〈generative approach) 和 判别 方法 
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(discriminative approach). 所 学 到 的 模型 分 别称 为 生成 模型 (generative model) 
和 判别 模型 〈discriminative model). 
生成 方法 由 数据 学 习 联 合 概率 分 布 P(X, 了 ) ， 然 后 求 出 条 件 概 率 分 布 P(Y |X) 
作为 预测 的 模型 ， 即 生成 模型 : 
P(X,7) 


PCID= 


这 样 的 方法 之 所 以 称 为 生成 方法 , 是 因为 模型 表示 了 给 定 输入 无 产生 输出 了 的 生 
成 关系 .典型 的 生成 模型 有 : 朴素 贝 叶 斯 法 和 隐 马 尔 可 夫 模型 ， 将 在 后 面 章节 进 
行 相关 讲述 . 

判别 方法 由 数据 直接 学 习 决策 函数 /(X) 或 者 条 件 概率 分 布 P(Y|X) 作为 预 
测 的 模型 ， 即 判别 模型 判别 方法 关心 的 是 对 给 定 的 输入 XY， 应 该 预测 什么 样 的 输 
出 YF， 典型 的 判别 模型 包括 : k 近 邻 法 、 感 知 机 、 决 策 树 、 逻 辑 斯 谤 回归 模型 、 最 
大 粹 模型 、 支 持 向 量 机 、 提 升 方法 和 条 件 随机 场 等 ， 将 在 后 面 章节 讲述 . 

在 监督 学 习 中 ， 生 成 方法 和 判别 方法 各 有 优 缺 点 ， 适 合 于 不 同 条 件 下 的 学 习 
问题 . 

生成 方法 的 特点 ， 生 成 方法 可 以 还 原 出 联合 概率 分 布 P(X,Y) ， 而 判别 方法 
则 不 能 ， 生 成 方法 的 学 习 收 敛 速度 更 快 ， 即 当 样本 容量 增加 的 时 候 ， 学 到 的 模型 
可 以 更 快 地 收敛 于 真实 模型 ， 当 存在 隐 变 量 时 ， 仍 可 以 用 生成 方法 学 习 ， 此 时 判 
别 方法 就 不 能 用 . 

判别 方法 的 特点 : 判别 方法 直接 学 习 的 是 条 件 概率 P(Y|X) 或 决策 函数 
了/(X)， 直 接 面 对 预测 ， 往 往 学 习 的 准确 率 更 高 ， 由 于 直接 学 习 P(Y|X) 或 /(X), 可 
以 对 数据 进行 各 种 程度 上 的 抽象、 定义 特征 并 使 用 特征 , 因此 可 以 简化 学 习 问 题 . 


18 分 类 问题 


分 类 是 监督 学 习 的 一 个 核心 问题 . 在 监督 学 习 中 ， 当 输 出 变量 7 取 有 限 个 离散 
值 时 ， 预 测 问题 便 成 为 分 类 问题 ,这 时 ,输入 变量 可 以 是 离散 的 ， 也 可 以 是 连续 
的 . 监督 学 习 从 数据 中 学 习 一 个 分 类 模型 或 分 类 决策 函数 , 称 为 分 类 器 (classifier). 
分 类 器 对 新 的 输入 进行 输出 的 预测 (prediction)， 称 为 分 类 (classification). 可 
能 的 输出 称 为 类 〈class)， 分 类 的 类 别 为 多 个 时 ， 称 为 多 类 分 类 问题 . 本 书 主要 
讨论 二 类 分 类 问题 . 

分 类 问题 包括 学 习 和 分 类 两 个 过 程 . 在 学 习 过 程 中 ,根据 已 知 的 训练 数据 集 
利用 有 效 的 学 习 方法 学 习 一 个 分 类 器 ; 在 分 类 过 程 中 ， 利 用 学 习 的 分 类 器 对 新 的 
输入 实例 进行 分 类 . 分 类 问题 可 用 图 1.4 描述 ,图 中 (x,y),(%, 力 )…,(xw,yw) 是 
训练 数据 集 ， 学 习 系统 由 训练 数据 学 习 一 个 分 类 器 PC7| 亏 ) 或 了 = CE ; 分 类 系 
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统 通过 学 到 的 分 类 器 P(Y|X) 或 =f(X) 对 于 新 的 输入 实例 zw 进行 分 类 ， 即 预 
测 其 输出 的 类 标记 w+ . 


(x91), (2577) Km N) 


XN+l YN+l 
上 一 -一 









图 1.4 分 类 问题 


评价 分 类 器 性 能 的 指标 一 般 是 分 类 准确 率 〈accuracy)， 其 定义 是 : 对 于 给 定 
的 测试 数据 集 , 分 类 器 正确 分 类 的 样本 数 与 总 样本 数 之 比 . 也 就 是 损失 函数 是 0-1 
损失 时 测试 数据 集 上 的 准确 率 ( 见 公式 (1.17)). 

对 于 二 类 分 类 问题 常用 的 评价 指标 是 精确 率 (precision) 与 召回 率 (recall). 通 
常 以 关注 的 类 为 正 类 ， 其 他 类 为 负 类 ， 分 类 器 在 测试 数据 集 上 的 预测 或 正确 或 不 
正确 ，4 种 情况 出 现 的 总 数 分 别 记 作 : 

7P 一 一 将 正 类 预测 为 正 类 数 ; 

FN 一 一 将 正 类 预测 为 负 类 数 ; 

FP 一 一 将 负 类 预测 为 正 类 数 ; 

TN 一 一 将 负 类 预测 为 负 类 数 . 




















精确 率 定义 为 
TP 
P= 地 + 地 (1.30) 
召回 率 定义 为 
7P 
R=-7PHEN QaD 
此 外 ， 还 有 五 值 ， 是 精确 率 和 召回 率 的 调和 均值 ， 即 
公示 
pa (1.32) 
27P 
R37PHFPTEN (33) 


精确 率 和 召回 率 都 高 时 ， 五 值 也 会 高 . 
许多 统计 学 习 方法 可 以 用 于 分 类 ， 包 括 上 近邻 法 、 感 知 机 、 朴 素 贝 叶 斯 法 、 决 
策 树 、 决 策 列 表 、 遥 辑 斯 详 回 归 模 型 、 支 持 向 量 机 、 提 升 方法 、 贝 叶 斯 网 络 、 神 


20 第 1 章 统计 学 习 方 法 概论 





经 网 络 、Winnow 等 .本 书 将 讲述 其 中 一 些 主要 方法 . 

分 类 在 于 根据 其 特性 将 数据 “分 门 别 类 ”所 以 在 许多 领域 都 有 广泛 的 应 
用 . 例如 ， 在 银行 业务 中 ， 可 以 构建 一 个 客户 分 类 模型 ， 对 客户 按照 贷款 风险 的 
大 小 进行 分 类 ; 在 网 络 安全 领域 , 可 以 利用 日 志 数据 的 分 类 对 非法 入 侵 进行 检测 
在 图 像 处 理 中 ， 分 类 可 以 用 来 检测 图 像 中 是 否 有 人 脸 出 现 ; 在 手写 识别 中 ， 分 类 
[以 用 于 识别 手写 的 数字 ; 在 互联 网 搜索 中 ,网 页 的 分 类 可 以 帮助 网 页 的 抓 取 、 索 
引 与 排序 . 

举 一 个 分 类 应 用 的 例子 一 一 文本 分 类 (text classification)， 这 里 的 文本 可 以 是 
新 闻 报道 、 网 页 、 电 子 邮 件 、 学 术 论 文 等 ， 类别 往 往 是 关于 文本 内 容 的 ， 例 如 政 
治 、 经 济 、 体 育 等 ， 也 有 关于 文本 特点 的 ， 如 正面 意见 、 反 面 意见 ， 还 可 以 根据 
应 用 确定 ， 如 垃圾 邮件 、 非 垃圾 邮件 等 . 文本 分 类 是 根据 文本 的 特征 将 其 划分 到 已 
有 的 类 中 . 输入 是 文本 的 特征 向 量 , 输出 是 文本 的 类 别 . 通常 把 文本 中 的 单词 定义 
为 特征 ， 每 个 单词 对 应 一 个 特征 . 单词 的 特征 可 以 是 二 值 的 ， 如 果 单词 在 文本 中 
出 现 则 取 值 是 1， 否则 是 0， 也 可 以 是 多 值 的 ， 表 示 单 词 在 文本 中 出 现 的 频率 . 直 
观 地 ， 如 果 “ 股 票 ”"“ 银 行 "“ 货 币 ” 这 些 词 出 现 很 多 ， 这 个 文本 可 能 属于 经 济 类 ， 
如 果 “ 网 球 ”“ 比 赛 "“ 运 动员 ”这 些 词 频繁 出 现 ， 这 个 文本 可 能 属于 体育 类 . 


19 标注 问题 


标注 〈tagging) 也 是 一 个 监督 学 习 问题 . 可 以 认为 标注 问题 是 分 类 问题 的 一 
个 推广 ,标注 问题 又 是 更 复杂 的 结构 预测 (structure prediction) 问 题 的 简单 形式 . 标 
注 问题 的 输入 是 一 个 观测 序列 ， 输 出 是 一 个 标记 序列 或 状态 序列 . 标注 问题 的 目 
标 在 于 学 习 一 个 模型 ， 使 它 能 够 对 观测 序列 给 出 标记 序列 作为 预测 .注意 ， 可 能 
的 标记 个 数 是 有 限 的 , 但 其 组 合 所 成 的 标记 序列 的 个 数 是 依 序列 长 度 呈 指数 级 增 
长 的 . 

标注 问题 分 为 学 习 和 标注 两 个 过 程 (如 图 1.5 所 示 ). 首先 给 定 一 个 训练 数据 集 


T={057), (5, ),, (Xs py)} 


这 里 ,t= Gzip i=1,2,…,, 是 输入 观测 序列 ,y=(y09,y0)…,y)7 
是 相应 的 输出 标记 序列 ，n 是 序列 的 长 度 ， 对 不 同样 本 可 以 有 不 同 的 值 ， 学 习 系 
统 基于 训练 数据 集 构建 一 个 模型 ， 表 示 为 条 件 概率 分 布 : 


POYO YY, TO | XV, KO, x") 


| 











这 里 ,每 一 个 XW (i=1,2,…,n ) 取 值 为 所 有 可 能 的 观测 , 每 一 个 ro (j=1,2,…,n) 
取 值 为 所 有 可 能 的 标记 ， 一 般 n<< N. 标注 系统 按照 学 习 得 到 的 条 件 概率 分 布 模 
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型 ， 对 新 的 输入 观测 序列 找到 相应 的 输出 标记 序列 ,具体 地 ， 对 一 个 观测 序列 
za = (23),x@,…,x 如 "找到 使 条 件 概率 P8370) | (x 凡 4x 区 
xW1) ) 最 大 的 标记 序列 yy = Oo 






Criy) (F292) wyN) 


学 习 系 统 


Xy+l BA 
| 一 一 一 





图 1.5 标注 问题 


评价 标注 模型 的 指标 与 评价 分 类 模型 的 指标 一 样 ， 常 用 的 有 标注 准确 率 、 精 
确 率 和 召回 率 ， 其 定义 与 分 类 模型 相同 、 

标注 常用 的 统计 学 习 方法 有 : 隐 马 尔 可 夫 模型 、 条 件 随机 场 . 

标注 问题 在 信息 抽取 、 自 然 语言 处 理 等 领域 被 广泛 应 用 ， 是 这 些 领 域 的 基本 
问题 , 例如， 自然 语 言 处 理 中 的 词性 标注 (part of speech tagging) 就 是 一 个 典型 的 
标注 问题 : 给 定 一 个 由 单词 组 成 的 句子 ， 对 这 个 句子 中 的 每 一 个 单词 进行 词性 标 
注 ， 即 对 一 个 单词 序列 预测 其 对 应 的 词性 标记 序列 . 

举 一 个 信息 抽取 的 例子 .从 英文 文章 中 抽取 基本 名 词 短语 (base noun 
phrase). 为 此 ， 要 对 文章 进行 标注 .英文 单词 是 一 个 观测 ， 英 文句 子 是 一 个 观测 
序列 , 标记 表示 名 词 短 语 的 “开始 ”“ 结 束 ”或 “其 他 ”( 分 别 以 B，E, 0 表示 )， 
标记 序列 表示 英文 句子 中 基本 名 词 短语 的 所 在 位 置 . 信息 抽取 时 ,将 标记 “开始 ” 
到 标记 “结束 ”的 单词 作为 名 词 短 语 . 例如 , 给 出 以 下 的 观测 序列 ， 即 英文 句子 ， 
标注 系统 产生 相应 的 标记 序列 ， 即 给 出 句子 中 的 基本 名 词 短语 . 

输入 : At Microsoft Research, we have an insatiable curiosity and the desire to 
create new technology that will help define the computing experience. 

输出 : AUVO MicrosofUB Research/E, we/O have/O an/O insatiable/B curiosity/E 
and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O 
the/O computing/B experience/E. 


110 回归 问题 


回归 《regression》 是 监督 学 习 的 另 一 个 重要 问题 . 回归 用 于 预测 输入 变量 ( 自 
变量 ) 和 输出 变量 〈 因 变量 ) 之 问 的 关系 ,特别 是 当 输 入 变量 的 值 发 生变 化 时 ， 输 
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出 变量 的 值 随 之 发 生 的 变化 . 回归 模型 正 是 表示 从 输入 变量 到 输出 变量 之 间 映 射 
的 函数 . 回归 问题 的 学 习 等 价 于 函数 拟 合 : 选择 一 条 函数 曲线 使 其 很 好 地 拟 合 已 
知 数据 且 很 好 地 预测 未 知 数据 参照 1.4.2 节 ). 

本 归 问 题 分 为 学 习 和 预测 两 个 过 程 (如 图 1.6 所 示 ). 首先 给 定 一 个 训练 数据 集 : 


T={%,7),5, 2) (xy yy)} 


这 里 ，x e R" 是 输入 ，ye R 是 对 应 的 输出 ，i=1,2,…,N . 学 习 系 统 基于 训练 数 
据 构建 一 个 模型 ， 即 函数 了 = f(X) ; 对 新 的 输入 x,,, ， 预 测 系统 根据 学 习 的 模型 
= /CE 确定 相应 的 输出 yy, . 





























(Fp) a p2) "(xyN) 


一 一 一 | 学 习 系 统 





YN+1 


"| 预测 系统 














图 1.6 回归 问题 


回归 问题 按照 输入 变量 的 个 数 ， 分 为 一 元 回归 和 多 元 回归 ， 按照 输入 变量 和 
输出 变量 之 间 关系 的 类 型 即 模型 的 类 型 ， 分 为 线性 回归 和 非 线性 回归 . 
回归 学 习 最 常用 的 损失 函数 是 平方 损失 函数 ， 在 此 情况 下 ， 回 归 问 题 可 以 由 
著名 的 最 小 二 乘法 least squares) 求解 . 

许多 领域 的 任务 都 可 以 形式 化 为 回归 问题 ， 比 如 ， 回 归 可 以 用 于 商务 领域 ,， 作 
为 市 场 趋势 预测 、 产 品质 量 管理 、 客 户 满意 度 调 查 、 投 资 风险 分 析 的 工具 . 作为 
例子 ， 简 单 介绍 股价 预测 问题 . 假设 知道 某 一 公司 在 过 去 不 同时 间 点 〈 比 如 ， 每 
天 ) 的 市 场 上 的 股票 价格 比如 ， 股 票 平均 价格 )， 以 及 在 各 个 时 间 点 之 前 可 能 
影响 该 公司 股价 的 信息 《比如 ， 该 公司 前 一 周 的 营业 额 、 利 润 )， 目 标 是 从 过 去 
的 数据 学 习 一 个 模型 ， 使 它 可 以 基于 当前 的 信息 预测 该 公司 下 一 个 时 间 点 的 股票 
价格 . 可 以 将 这 个 问题 作为 回归 问题 解决 . 具体 地 ， 将 影响 股价 的 信息 视 为 自 变 
量 〈 输 入 的 特征 )， 而 将 股价 视 为 因 变量 〈 输 出 的 值 )， 将 过 去 的 数据 作为 训练 数 
据 ， 就 可 以 学 习 一 个 回归 模型 ， 并 对 未 来 的 股价 进行 预测 . 可 以 看 出 这 是 一 个 困 
难 的 预测 问题 ， 因 为 影响 股价 的 因素 非常 多 ， 我 们 未 必 能 判断 到 哪些 信息 〈 输 入 
的 特征 ) 有 用 并 能 得 到 这 些 信息 . 





习题 2 





本 章 概要 


1. 统计 学 习 是 关于 计算 机 基于 数据 构建 概率 统计 模型 并 运用 模型 对 数据 进 
行 分 析 与 预测 的 一 门 学科 . 统计 学 习 包 括 监督 学 习 、 非 监督 学 习 、 半 监督 学 习 和 
强化 学 习 . 

2， 统计 学 习 方 法 三 要 素 一 一 模型 、 策 略 、 算 法 ， 对 理解 统计 学 习 方 法 起 到 
提纲 而 领 的 作用 . 

3. 本 书 主要 讨论 监督 学 习 ， 监 督学 习 可 以 概括 如 下 : 从 给 定 有 限 的 训练 数 
据 出 发 ， 假 设 数据 是 独立 同 分 布 的 ， 而 且 假 设 模型 属于 某 个 假设 空间 ， 应 用 某 一 
评价 准则 ， 从 假设 空间 中 选取 一 个 最 优 的 模型 ， 使 它 对 已 给 训练 数据 及 未 知 测试 
数据 在 给 定 评价 标准 意义 下 有 最 准确 的 预测 . 

4. 统计 学 习 中 ， 进 行 模型 选择 或 者 说 提高 学 习 的 泛 化 能 力 是 一 个 重要 问 
题 ， 如 果 只 考虑 减少 训练 误差 ， 就 可 能 产生 过 拟 合 现象 . 模型 选择 的 方法 有 正则 
化 与 交叉 验证 ， 学 习 方法 泛 化 能 力 的 分 析 是 统计 学 习 理论 研究 的 重要 课题 . 

5， 分 类 问题 、 标 注 问 题 和 回归 问题 都 是 监督 学 习 的 重要 问题 ， 本 书 中 介绍 
的 统计 学 习 方法 包括 感知 机 、 丰 近邻 法 、 朴 素 贝 叶 斯 法 、 决 策 树 、 逻 辑 斯 谤 回归 
与 最 大 炉 模 型 、 支 持 向 量 机 、 提 升 方法 、EM 算法 、 隐 马尔 可 夫 模型 和 条 件 随机 
场 .这 些 方法 是 主要 的 分 类 、 标 注 以 及 回归 方法 . 它们 又 可 以 归 类 为 生成 方法 与 
判别 方法 ， 














继续 阅读 
关于 统计 学 习 方法 一 般 介绍 的 书籍 可 以 参阅 文献 [1 一 4]. 
习 题 


1.1 说 明 伯 努 利 模型 的 极 大 似 然 估计 以 及 贝 叶 斯 估计 中 的 统计 学 习 方法 三 要 
素 . 伯 努 利 模型 是 定义 在 取 值 为 0 与 1 的 随机 变量 上 的 概率 分 布 . 假设 观测 
到 伯 努 利 模型 ”次 独立 的 数据 生成 结果 ， 其 中 丰 次 的 结果 为 1， 这 时 可 以 用 
极 大 似 然 估计 或 贝 叶 斯 估计 来 估计 结果 为 1 的 概率 . 

1.2 通过 经 验 风险 最 小 化 推导 极 大 似 然 估计. 证 明 模 型 是 条 件 概率 分 布 ， 当 损失 
函数 是 对 数 损失 函数 时 ， 经 验 风险 最 小 化 等 价 于 极 大 似 然 估 计 ， 





24 


第 1 章 统计 学 习 方 法 概论 





[1] 


站] 


[3] 
[4 


参考 文献 


Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning: Data Mining, 
Inference, and Prediction. Springer. 2001 〈 中 译本 : 统计 学 习 基 础 一 一 数据 挖掘 、 推 理 与 预 
测 ， 范 明 ， 柴 玉 梅 ， 咎 红 英 等 译 、 北 京 : 电子 工业 出 版 社 ，2004) 

Tom M Michelle. Machine Learning. McGraw-Hill Companies, Inc. 1997〈 中 译本 ， 机 器 学 
习 . 北京 : 机 械 工业 出 版 社 ，2003) 

Bishop M, Pattern Recognition and Machine Leaming. Springer, 2006 

Brian Ripley Pattern Recognition and Neural Networks. Cambridge University Press, 1996 


第 2 章 感 知 机 


感知 机 (perceptron) 是 二 类 分 类 的 线性 分 类 模型 , 其 输入 为 实例 的 特征 向 量 ， 
输出 为 实例 的 类 别 ， 取 +1 和 -1 二 值 ， 感 知 机 对 应 于 和 输入 空间 〈 特 征 空间 ) 中 将 
实例 划分 为 正 负 两 类 的 分 离 超 平面 ， 属 于 判别 模型 感知 机 学 习 旨 在 求 出 将 训练 
数据 进行 线性 划分 的 分 离 超 平面 ， 为 此 ， 导 入 基于 误 分 类 的 损失 函数 ， 利 用 梯度 
下 降 法 对 损失 函数 进行 极 小 化 ， 求 得 感知 机 模型 ， 感 知 机 学 习 算 法 具有 简单 而 易 
于 实现 的 优点 ， 分 为 原始 形式 和 对 偶 形 式 . 感知 机 预测 是 用 学 习 得 到 的 感知 机 模 
型 对 新 的 输入 实例 进行 分 类 . 感知 机 1957 年 由 Rosenblatt 提出 , 是 神经 网 络 与 支 
持 向 量 机 的 基础 “ 

本 章 首 先 介绍 感知 机 模型 ， 然 后 叙述 感知 机 的 学 习 策 略 ， 特 别 是 损失 函数 ， 
最 后 介绍 感知 机 学 习 算法 ， 包 括 原始 形式 和 对 偶 形 式 ， 并 证 明 算法 的 收敛 性 . 


2.1 感知 机 模型 


定义 2.1 (感知 机 ) ”假设 输入 空间 (特征 空间 ) 是 +cR"， 输 出 空间 是 
了 ={+1,-， 输入 xe * 表示 实例 的 特征 向 量 ， 对 应 于 输入 空间 (特征 空间 〉 的 
点 ; 输出 ye 了 表示 实例 的 类 别 . 由 输入 空间 到 输出 空间 的 如 下 函数 
f(x)=sign(w.x+b) (2.1) 
称 为 感知 机 .其 中 ，w 和 4 为 感知 机 模型 参数 ，we R" 叫 作 权 值 (weight) 或 权 
值 向 量 (weight vector)，be R 叫 作 偏 置 (bias)，w.x 表示 w 和 x 的 内 积 .sign 
是 符号 函数 ， 即 





和 _|+l, x>0 2 
ign(x) = 0 (2.2) 
感知 机 是 一 种 线性 分 类 模型 ， 属 于 判别 模型 . 感知 机 模型 的 假设 空间 是 定义 
在 特征 空间 中 的 所 有 线性 分 类 模型 〈linear classification model) 或 线性 分 类 器 
(linear classifier)， 即 函数 集合 {f | f(x)=w-x+b}， 
感知 机 有 如 下 几何 解释 : 线性 方程 
w:x+b=0 (2.3) 
对 应 于 特征 空间 R" 中 的 一 个 超 平面 8， 其 中 w 是 超 平面 的 法 向 量 ， 是 超 平面 的 
截 距 .这 个 超 平面 将 特征 空间 划分 为 两 个 部 分 . 位 于 两 部 分 的 点 (特征 向 量 ) 分 
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别 被 分 为 正 、 负 两 类 . 因此， 超 平面 8 称 为 分 离 超 平面 (separating hyperplane)》， 
如 图 2.1 所 示 . 





x 








图 2.1 感知 机 模型 





感知 机 学 习 ， 由 训练 数据 集 ( 实 例 的 特征 向 量 及 类 别 ) 
T={(%4,7),(%, 2),", xys yy)} 
其 中 ，xe 守 =R”，y,e 站 ={+1--l}，i=1,2,…,N， 求 得 感知 机 模型 (2.1)， 即 求 
得 模型 参数 w, bh. 感知 机 预测 ， 通 过 学 习 得 到 的 感知 机 模型 ， 对 于 新 的 输入 实例 
给 出 其 对 应 的 输出 类 别 . 


2.2 ”感知 机 学 习 策略 
2.2.1 数据 集 的 线性 可 分 性 


定义 2.2〈 数 据 集 的 线性 可 分 性 ) 给 定 一 个 数据 集 
T={(%,7), 5%, ), ,Xs pw)}, 
其 中 ，xe 针 =R"，ye y={t1,-}，i=1,2,…,N， 如 果 存 在 某 个 超 平面 5 
wx+b=0 

能 够 将 数据 集 的 正 实例 点 和 负 实 例 点 完全 正确 地 划分 到 超 平面 的 两 侧 ， 即 对 所 有 
九 =+1 的 实例 i， 有 wx,+b>0， 对 所 有 y= 一 1 的 实例 i， 有 wx,+b<0， 则 称 
数据 集 7 为 线性 可 分 数据 集 (linearly separable data set);， 否则 ， 称 数据 集 T 线 性 
不 可 分 . 


2.2.2 感知 机 学 习 策略 
假设 训练 数据 集 是 线性 可 分 的 , 感知 机 学 习 的 目标 是 求 得 一 个 能 够 将 训练 集 
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正 实 例 点 和 负 实 例 点 完全 正确 分 开 的 分 离 超 平 面 . 为 了 找 出 这 样 的 超 平面 ， 即 确 
定 感知 机 模型 参数 w,b， 需 要 确定 一 个 学 习 策略 ， 即 定义 (经验) 损失 函数 并 将 
损失 函数 极 小 化 . 

损失 函数 的 一 个 自然 选择 是 误 分 类 点 的 总 数 . 但 是 ， 这 样 的 损失 函数 不 是 参 
数 w,2 的 连续 可 导 函 数 ， 不 易 优 化 . 损失 函数 的 另 一 个 选择 是 误 分 类 点 到 超 平面 
5 的 总 距离 , 这 是 感知 机 所 采用 的 . 为 此 ， 首 先 写 出 输入 空间 R" 中 任 一 点 为 到 超 
平面 $ 的 距离 : 








|w.zo +b| 


上 
这 里 ，|w| 是 w 的 三 范 数 ， 
其 次 ， 对 于 误 分 类 的 数据 (x,y) 来 说 ， 
—y(w:x+b)>0 
成 立 ， 因 为 当 w.%+b5>0 时 ，y,=-1， 而 当 w.x%+b<0 时 ，y,=+1. 因此 ， 误 
分 类 点 到 超 平面 5S 的 距离 是 
1 
这 样 ， 假 设 超 平面 5 的 误 分 类 点 集合 为 M， 那 么 所 有 误 分 类 点 到 超 平面 5 的 
总 距离 为 


-7 之 yw:x+b) 


不 考虑 pr 就 得 到 感知 机 学 习 的 损失 函数 ”. 
给 定 训 练 数据 集 


T={0557),%, 2),, xy pw)} 
其 中 ，x%e =R”，ye y={+1,~D，i=1,2,…,N. 感知 机 sign(w.x+b) 学习 的 
损失 函数 定义 为 
LWwb)=— 2 yw +b) (2.4) 


其 中 1 为 误 分 类 点 的 集合 .这 个 损失 函数 就 是 感知 机 学 习 的 经 验 风险 函数 ， 

显然 ， 损 失 函 数 L(w,b) 是 非 负 的 . 如 果 没 有 误 分 类 点 ， 损 失 函数 值 是 0， 而 
且 ， 误 分 类 点 越 少 ， 误 分 类 点 离 超 平面 越 近 ， 损 失 函数 值 就 越 小 . 一 个 特定 的 样 
本 点 的 损失 函数 : 在 误 分 类 时 是 参数 w,b 的 线性 函数 , 在 正确 分 类 时 是 0. 因此 ， 
给 定 训练 数据 集 7 ， 损 失 函 数 L(w,5b) 是 w,b 的 连续 可 导 函数 . 








名 第 7 章 中 会 介绍 y(w.x+b) 称 为 样本 点 的 函数 间隔 . 
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感知 机 学 习 的 策略 是 在 假设 空间 中 选取 使 损失 函数 式 (2.4) 最 小 的 模型 参数 
wb, 即 感知 机 模型 . 


2.3 ”感知 机 学 习 算 法 


感知 机 学 习 问 题 转化 为 求解 损失 函数 式 〈2.4) 的 最 优化 问题 ,最 优化 的 方法 
是 随机 梯度 下 降 法 . 本 节 叙 述 感知 机 学 习 的 具体 算法 , 包括 原始 形式 和 对 偶 形 式 ， 
并 证 明 在 训练 数据 线性 可 分 条 件 下 感知 机 学 习 算 法 的 收敛 性 . 


2.3.1 感知 机 学 习 算 法 的 原始 形式 
感知 机 学 习 算 法 是 对 以 下 最 优化 问题 的 算法 . 给 定 一 个 训练 数据 集 
T={0%57),(% ,2 ) (cv 
其 中 ，xeX=R"，yey={-1l}，i=1,2,…,N ， 求 参数 w,b， 使 其 为 以 下 损 


失 函 数 极 小 化 问题 的 解 
minL(w,b)=— 2 yw +b) (2.5) 
EM 


其 中 M 为 误 分 类 点 的 集合 . 
感知 机 学 习 算 法 是 误 分 类 驱动 的 ， 具 体 采 用 随机 梯度 下 降 法 stochastic 
gradient descent)， 首 先 ， 任 意 选取 一 个 超 平面 w, b， 然 后 用 梯度 下 降 法 不 断 地 
极 小 化 目标 函数 (2.5). 极 小 化 过 程 中 不 是 一 次 使 M 中 所 有 误 分 类 点 的 梯度 下 降 ， 
而 是 一 次 随机 选取 一 个 误 分 类 点 使 其 梯度 下 降 . 
假设 误 分 类 点 集合 M 是 固定 的 ， 那 么 损失 函数 L(w,b) 的 梯度 由 
VLOW,b) = yn 


HEM 


VL(w,b)=—D» 
weEM 
给 出 . 
随机 选取 一 个 误 分 类 点 (x,»)， 对 wb 进行 更 新 : 
WE w+ (2.6) 
beb+ny, (2.7) 


式 中 7(0<7 入 1) 是 步 长 ， 在 统计 学 习 中 又 称 为 学 习 率 〈leaming rate). 这 样 ， 通 过 
迭代 可 以 期 待 损失 函数 L(w,5b) 不 断 减 小 ， 直 到 为 0， 综 上 所 述 ， 得 到 如 下 算法 ; 
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算法 2.1 (感知 机 学 习 算法 的 原始 形式 ) 
输入 : 训练 数据 集 了 = {6,3),(%2, 攻 )…,(xwspw)} ,其 中 eXt=R”, yey= 
{1,+}，i=1,2,…,N ; 学 习 率 7 (0<7 1); 
输出 ，w,b; 感知 机 模型 f(x) =sign(w.x+5b). 
(1) 选取 初 值 wo,b。 
(2) 在 训练 集中 选取 数据 (x,,y,) 
(3) 如 果 世 (w+ 人 入 0 
WE w+nyx 
be-b+t+ny, 


(4) 转 至 (2)， 直 至 训练 集中 没有 误 分 类 点 . 站 

这 种 学 习 算法 直观 上 有 如 下 解释 : 当 一 个 实例 点 被 误 分 类 , 即位 于 分 离 超 平面 
的 错误 一 侧 时 ， 则 调整 w, b 的 值 ， 使 分 离 超 平面 向 该 误 分 类 点 的 一 侧 移动 ， 以 减 
少 该 误 分 类 点 与 超 平面 间 的 距离 ， 直 至 超 平面 越过 该 误 分 类 点 使 其 被 正确 分 类 . 

算法 2.1 是 感知 机 学 习 的 基本 算法 ， 对 应 于 后 面 的 对 偶 形 式 ， 称 为 原始 形 
式 ， 感 知 机 学 习 算法 简单 且 易 于 实现 . 

例 2.1 如 图 2.2 所 示 的 训练 数据 集 ， 其 正 实例 点 是 x =(3,3)"，x, =(4,3)"， 
负 实 例 点 是 =(,1)"， 试 用 感知 机 学 习 算法 的 原始 形式 求 感知 机 模型 f(x) = 


sign(wex+b)， 这 里 ，w=(wY,w2)T，x=(x0,xO). 


x 








ao 
xD) 





图 2.2 感知 机 示例 


解 构建 最 优化 问题 : 
minL(w,b)=— > ywx+b) 
EM 


按照 算法 2.1 求解 w, b. 77=1. 
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(1) 取 初 值 w =0，h=0 
(2) 对 为 =(3,3)" ， 六 (w+ 所 )=0， 未 能 被 正确 分 类 ， 更 新 w,b 


W=wm+ya=(3,3) ,b=b+y =1 
得 到 线性 模型 
Wx+h =3x0 +3x2 +1 


(3) 对 ,为 ， 显然 ，y(w +) >0， 被 正确 分 类 ， 不 修改 wb ; 
对 轧 =(1, 了 7， 为 (Ww: 为 + 马 )<0， 被 误 分 类 ， 更 新 wb . 


=W+D (22) b=h+y=0 
得 到 线性 模型 


wx+b, =2x0 +2x° 
如 此 继续 下 去 ， 直 到 
w=(,D)"', b,=-3 


Wx+b =x0 +x -3 


对 所 有 数据 点 蕊 (w% , 世 + 乌 )> 0 ， 没 有 误 分 类 点 ， 损 失 函 数 达到 极 小 . 





分 离 超 平面 为 xz0O+xoO_3=0 
感知 机 模型 为 CD=signCtO+x2 -3) 
迭代 过 程 见 表 2.1. 
表 2.1 例 2.1 求 解 的 迭代 过 程 
迭代 次 数 误 分 类 点 w s ep 
0 0 5 1 
。 G3,3) 1 3x0 +3x0 +1 
2 为 (2,2) 0 2x0 十 2x0) 
3 五 GD | x +x 1 
4 三 (0,0)™ 二 2 
(3,3) 3x0 +43x0 1 
6 为 (2,2)" -2 2x0 +2x0 2 
7 为 GD -3 x+x -3 
局 0 WY) .3 + -3 
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这 是 在 计算 中 误 分 类 点 先后 取 %,%, 太 ,为 ,为 , 轧 , 思 得 到 的 分 离 超 平面 和 感 
知 机 模型 . 如果 在 计算 中 误 分 类 点 依次 取 坟 ,为 , 为 ,为 , 怠 , 太 ,为 ;为 ,入 ; 太 ; 为 ， 那 
么 得 到 的 分 离 超 平面 是 2x +x -5=0 . 

可 见 ， 感 知 机 学 习 算法 由 于 采用 不 同 的 初 值 或 选取 不 同 的 误 分 类 点 ， 解 可 以 
不 同 . 


2.3.2 ”算法 的 收敛 性 


现在 证 明 ， 对 于 线性 可 分 数据 集 感知 机 学 习 算法 原始 形式 收敛 ， 即 经 过 有 限 
次 迭代 可 以 得 到 一 个 将 训练 数据 集 完全 正确 划分 的 分 离 超 平面 及 感知 机 模型 . 

为 了 便于 叙述 与 推导 , 将 偏 置 b 并 入 权重 向 量 w， 记 作坊 =(w',b)"， 同样 也 将 
输入 向 量 加 以 扩充 ， 加 进 常 数 1， 记 作 =(x',1)". 这 样 ，fe R"，We R"m. 显 
然 ， 充 : 主 =w.x+b， 

定理 2.1 (Novikoff) ” 设 训练 数据 集 T ={(%,y),(%,y)…,(xwy,yw)} 是 线性 
可 分 的 ， 其 中 x,e X=R” ,yey={-1,+D}， i=1,2,…,N， 则 

(1) 存在 满足 条 件 |%,|=1 的 超 平面 高 ,车 = ws .x+ bo =0 将 训练 数据 集 完 
全 正确 分 开 ; 且 存 在 y>0， 对 所 有 i=1,2,…,N 


了 (om .元 )= 包 (ww hbon) > C.9) 
(2) 令 R=max |， 则 感知 机 算法 2.1 在 训练 数据 集 上 的 误 分 类 次 数 满 足 
不 等 式 








RY 
k<|— 
9 4 


证 明 (1) 由 于 训练 数据 集 是 线性 可 分 的 按照 定义 2.2， 存 在 超 平面 可 将 训 
练 数据 集 完全 正确 分 开 ， 取 此 超 平面 为 多。 -= wa.x+b =0， 使 | 操 ,|=1.， 由 
于 对 有 限 的 1=1,2,…,N ， 均 有 


Pi (Wap 二 ) = (Wope “+bm)>0 

















Wopt 


所 以 存在 
7=min{y, (wn + ba)} 


使 


Vi (Wo EE)=V (Wom 大 十 pe) 二》 


(2) 感知 机 算法 从 钢 =0 开始， 如 果实 例 被 误 分 类 ， 则 更 新 权重 . 令 色 ,是 
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第 个 误 分 类 实例 之 前 的 扩充 权重 向 量 ， 即 


站 工 T 
Wa = (wis, bs) 


则 第 大 个 误 分 类 实例 的 条 件 是 


PWee%) = Wit+b) <0 


若 (%,») 是 被 名., =(wii,b1)" 误 分 类 的 数据 ， 则 w 和 4 的 更 新 是 


We € Wei + YA 


br bey + 
即 
舱 = 售 4 二 772 遍 
下 面 推导 两 个 不 等 式 : 
(1) 
Wn > KY 
由 式 (2.11) 及 式 (2.8) 得 
Wp = Wl Wp + Ny Wope 这 
Wi Wn 十 11N 
由 此 递 推 即 得 不 等 式 (2.12) 
售 “Wm > Li “Wm + NY Wy “Wm +277>*… kn 
(2) 
[hE stmR: 
由 式 (2.11) 及 式 (2.10) 得 


= tn + 让 
<b + 
<|% a tm 
<|% +2mR < 
< HR? 
结合 不 等 式 (2.12) 及 式 (2.13) 即 得 


(2.10) 


(2.11) 


(2.12) 


(2.13) 
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HIN < Wom < 人 | 人 | | 和 |< VinR 

kr < KkR’ 
于 是 k< 昌 四 

7 
定理 表明 ， 误 分 类 的 次 数 上 是 有 上 界 的 ， 经 过 有 限 次 搜索 可 以 找到 将 训练 数 

据 完 全 正确 分 开 的 分 离 超 平面 . 也 就 是 说 ， 当 训练 数据 集 线 性 可 分 时 ， 感 知 机 学 
习 算 法 原始 形式 迭代 是 收敛 的 . 但 是 例 2.1 说 明 ， 感 知 机 学 习 算法 存在 许多 解 ， 这 
些 解 既 依赖 于 初 值 的 选择 ， 也 依赖 于 迭代 过 程 中 误 分 类 点 的 选择 顺序 . 为 了 得 到 
唯一 的 超 平面 ， 需 要 对 分 离 超 平面 增加 约束 条 件 . 这 就 是 第 7 章 将 要 讲述 的 线性 
支持 向 量 机 的 想法 . 当 训 练 集 线 性 不 可 分 时 ， 感 知 机 学 习 算 法 不 收敛 ， 选 代 结果 
会 发 生 震 荡 . 


2.3.3 ”感知 机 学 习 算法 的 对 偶 形式 


现在 考虑 感知 机 学 习 算法 的 对 偶 形式 . 感知 机 学 习 算法 的 原始 形式 和 对 偶 形式 
与 第 7 章 中 支持 向 量 机 学 习 算法 的 原始 形式 和 对 偶 形 式 相对 应 . 
对 偶 形式 的 基本 想法 是 ， 将 w 和 尹 表 示 为 实例 和 标记 轧 的 线性 组 合 的 形 
式 , 通过 求解 其 系数 而 求 得 w 和 2b .不 失 一 般 性 , 在 算法 2.1 中 可 假设 初始 值 w,b 
均 为 0 对 误 分 类 点 (x,,y) 通 过 
WE w+nyx, 
be b+ny, 


逐步 修改 wb, 设 修改 nn 次, 则 wb 关于 (%,y) 的 增 量 分 别 是 wx 和 wy， 这 里 
wm =m1. 这 样 ， 从 学 习 过 程 不 难看 出 ， 最 后 学 习 到 的 w,b 可 以 分 别 表示 为 


N 
w= Day (0.14) 
=1 


N 
b= > ai (2.15) 
i=] 


这 里 ，@ >0 ，i=12,…,N ， 当 7 =1 时， 表示 第 ;个 实例 点 由 于 误 分 而 进行 更 新 
的 次 数 ， 实 例 点 更 新 次 数 越 多 ， 意 味 着 它 距离 分 离 超 平面 越 近 ， 也 就 越 难 正确 分 
类 . 换 句 话 说， 这 样 的 实例 对 学 习 结果 影响 最 大 . 

下 面 对 照 原始 形式 来 叙述 感知 机 学 习 算 法 的 对 偶 形 式 、 

算法 2.2〈 感 知 机 学 习 算法 的 对 偶 形 式 ) 

输入 : 线性 可 分 的 数据 集 T ={(6,),(%, 力 )…,(xyspw)}， 其 中 eR” ,ye 
{+ ，i=1,2,…,N ; 学 习 率 7 (0<n<<1); 
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输出 : op; 二 知 机 本 开 /C9=sign[ 迪 onox+b] 
总 


其 中 w= (osQw) 
(1) ge0, be0 
(2) 在 训练 集中 选取 数据 (x,y,) 


N 
(3) 如 果 y (ge x +js。 
气 


Gatn 
be-b+ny, 
(4) 转 至 (2) 直到 没有 误 分 类 数据 . 


对 偶 形式 中 训练 实例 仅 以 内 积 的 形式 出 现 . 为 了 方便 ， 可 以 预先 将 训练 集中 
实例 间 的 内 积 计算 出 来 并 以 矩阵 的 形式 存储 ， 这 个 矩阵 就 是 所 谓 的 Gram 矩阵 
(Gram matrix ) 


G=[X.°x)]yxw 


例 2.2 数据 同 例 2.1， 正 样本 点 是 x =(3,3)"，x, =(4,3)"， 负 样本 点 是 x = 
(1,D"， 试 用 感知 机 学 习 算 法 对 偶 形式 求 感 知 机 模型 . 


解 按照 算法 2.2， 
(1) 取 @ =0, i=1,2,3，b=0,， 7=1 
(2) 计算 Gram 和 矩阵 
18 21 6 
C=|21 25 7 
时 
(3) 误 分 条 件 
» (Ser)<0 
j=1 
参数 更 新 


aeoatl, bebty 


(4) 迭代 .过程 从 略 ， 结 果 列 于 表 2.2. 

(5) 
w=2n +0x, —5x, = (DT 
b=-3 

分 离 超 平面 


x +x® -3=0 
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感知 机 模型 
JCoD =sign(xo +xo) -3) a 
表 2.2 例 2.2 求解 的 迭代 过 程 

大 0 1 2 和 4 6 学 
五 为 为 为 为 

a 0 1 1 2 2 2 2 
O0 0 0 0 0 0 0 0 0 
好 0 0 1 2 2 3 4 5 
b 0 1 0 -l 0 一 一 = 


对 照例 2.1， 结 果 一 致 ， 迭 代步 又 也 是 互相 对 应 的 . 
与 原始 形式 一 样 ， 感 知 机 学 习 算法 的 对 偶 形 式 迭 代 是 收敛 的 ， 存 在 多 个 解 ， 


‘本章 概要 


1 感知 机 是 根据 输入 实例 的 特征 向 量 x 对 其 进行 二 类 分 类 的 线性 分 类 模型 
f(x)=sign(w.x+b) 


感知 机 模型 对 应 于 输入 空间 (特征 空间 〉 中 的 分 离 超 平面 w.x+5=0. 
2. 感知 机 学 习 的 策略 是 极 小 化 损失 函数 : 


minL(w,b)=— 3, p(w +b) 
wb A 


损失 函数 对 应 于 误 分 类 点 到 分 离 超 平面 的 总 距离 . 

3， 感 知 机 学 习 算法 是 基于 随机 梯度 下 降 法 的 对 损失 函数 的 最 优化 算法 ， 有 
原始 形式 和 对 偶 形式 . 算法 简单 且 易 于 实现 . 原始 形式 中 ， 首 先 任意 选取 一 个 超 
平面 ,然后 用 梯度 下 降 法 不 断 极 小 化 目标 函数 .在 这 个 过 程 中 一 次 随机 选取 一 个 
误 分 类 点 使 其 梯度 下 降 . 

4 当 训练 数据 集 线 性 可 分 时 ， 感 知 机 学 习 算 法 是 收敛 的 ， 感 知 机 算法 在 训 
练 数据 集 上 的 误 分 类 次 数 满 足 不 等 式 : 


k< 目 
7 
当 训练 数据 集 线 性 可 分 时 ， 感 知 机 学 习 算 法 存在 无 穷 多 个 解 ， 其 解 由 于 不 同 
的 初 值 或 不 同 的 迭代 顺序 而 可 能 有 所 不 同 . 
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继续 阅读 


感知 机 最 早 在 1957 年 由 Rosenblatt 提出 中 .Novikoff 中 ，Minsky 与 Papert 加 


等 人 对 感知 机 进行 了 一 系列 理论 研究 ， 感知 机 的 扩展 学 习 方 法 包括 口袋 算法 
《pocket algorithm) 四、 表决 感知 机 (voted perceptron) 回 、 带 边缘 感知 机 (perceptron 
with margin) 钼 关于 感知 机 的 介绍 可 进一步 参考 文献 [7, 8] 


2.1 


22 
2.3 


[1] 
DC 


[3] 
[4] 


[5] 


[6] 


中 


[8] 


习 题 


Minsky 与 Papert 指出 : 感知 机 因为 是 线性 模型 ， 所 以 不 能 表示 复杂 的 函数 ， 
如 异 或 (XOR). 验证 感知 机 为 什么 不 能 表示 异 或 . 

模仿 例题 2.1， 构 建 从 训练 数据 集 求解 感知 机 模型 的 例子 . 

证 明 以 下 定理 : 样本 集 线 性 可 分 的 充分 必要 条 件 是 正 实 例 点 集 所 构成 的 凸 壳 2 
与 负 实 例 点 集 所 构成 的 凸 沉 互 不 相交 


参考 文献 


Rosenblatt F. The Perceptron: A probabilistic model for information storage and organization in 
the Brain. Cornell Aeronautical Laboratory. Psychological Review, 1958, 65 (6): 386-408 
Novikoff AB. On convergence proofs on perceptrons. Symposium on the Mathematical Theory 
of Automata, Polytechnic Institute of Brooklyn, 1962, 12, 615-622 

Minsky ML, Papert SA. Perceptrons. Cambridge, MA: MIT Press. 1969 

Gallant SI. Perceptron-based learning algorithms. IEEE Transactions on Neural Networks, 1990, 
1(2): 179-191 

Freund Y, Schapire RE. Large margin classification using the perceptron algorithm. In: 
Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT' 98). 
ACM Press, 1998 

Li YY Zaragoza H, Herbrich R, Shawe-Taylor J, Kandola J. The Perceptron algorithm with 
Uneven margins. In: Proceedings of the 19th International Conference on Machine Learning. 
2002, 379-386 

Widrow B, Lehr MA. 30 years of adaptive neural networks: Perceptron, madaline, and 
backpropagation. Proc. IEEE, 1990, 78(9): 1415-1442 
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回 设 集合 SCR" 是 由 及 " 中 的 大 个 点 所 组 成 的 集合 ， 即 S = {xw,x,…, 太 }. 定义 的 凸 壳 conv(9) 为 


cv- 上 =- 袜 2 
所 





立 4=1a >oi=n2 村 


第 3 章 kk 近邻 法 


上 近邻 法 《kK-nearest neighbor，k-NN) 是 一 种 基本 分 类 与 回归 方法 . 本 书 只 讨 
论 分 类 问题 中 的 上 近邻 法 . 近邻 法 的 输入 为 实例 的 特征 向 量 ， 对 应 于 特征 空间 
的 点 ， 输出 为 实例 的 类 别 ， 可 以 取 多 类 . 近邻 法 假设 给 定 一 个 训练 数据 集 ， 其 
中 的 实例 类 别 已 定 . 分 类 时 , 对 新 的 实例 , 根据 其 个 最 近邻 的 训练 实例 的 类 别 ， 
通过 多 数 表决 等 方式 进行 预测 .因此 ，k 近 邻 法 不 具有 显 式 的 学 习 过 程 ，k 近 邻 
法 实际 上 利用 训练 数据 集 对 特征 向 量 空 间 进 行 划分 ， 并 作为 其 分 类 的 “模型 ". 
值 的 选择 、 距 离 度量 及 分 类 决策 规则 是 近邻 法 的 三 个 基本 要 素 ,k 近 邻 法 1968 年 
由 Cover 和 Hart 提出 . 

本 章 首先 叙述 大 近邻 算法 ， 然 后 讨论 大 近邻 法 的 模型 及 三 个 基本 要 素 ， 最 后 
讲述 近邻 法 的 一 个 实现 方法 一 一 kd 树 ， 介 绍 构造 kd 树 和 搜索 ka 树 的 算法 ， 


3.1 kx 近邻 算法 


大 近邻 算法 简单 、 直 观 : 给 定 一 个 训练 数据 集 ， 对 新 的 输入 实例 ， 在 训练 数 
据 集中 找到 与 该 实例 最 邻近 的 上 个 实例 ， 这 上 个 实例 的 多 数 属于 某 个 类 ， 就 把 该 
输入 实例 分 为 这 个 类 .下 面 先 叙述 上 近邻 算法 ， 然 后 再 讨论 其 细节 . 

算法 3.1 (4 近邻 法 ) 

输入 : 训练 数据 集 





























了 = 人)Co 四 


其 中 ，x,e CR" 为 实例 的 特征 向 量 ，y,e y={G,c,,…,cx} 为 实例 的 类 别 ，i= 
1,2,…, 和 ;实例 特征 向 量 x ; 

输出 :实例 x 所 属 的 类 y. 

(1) 根据 给 定 的 距离 度量 , 在 训练 集 T 中 找 出 与 x 最 邻近 的 个 点 , 涵盖 这 


个 点 的 x 的 邻 域 记 作 NN, (x) ; 
(2) 在 和 (x) 中 根据 分 类 决策 规则 (如 多 数 表 决 ) 决定 zx 的 类 别 y : 
y=argmax BD, 1;=c), i=1,2,,N;: j=1,2,,K (3.1) 


seM(s) 


式 (3.1) 中 ，7 为 指示 函数 ， 即 当 y =c, 时 7 为 1， 否 则 7 为 0. 
近邻 法 的 特殊 情况 是 t=1 的 情形 , 称 为 最 近邻 算法 . 对 于 输入 的 实例 点 ( 特 
征 向 量 ) x， 最 近邻 法 将 训练 数据 集中 与 x 最 邻近 点 的 类 作为 x 的 类 . 
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近邻 法 没有 显 式 的 学 习 过 程 . 
3.2 大 近邻 模型 


丰 近 邻 法 使 用 的 模型 实际 上 对 应 于 对 特征 空间 的 划分 .模型 由 三 个 基本 要 素 一 一 
距离 度量 、 大 值 的 选择 和 分 类 决策 规则 决定 . 


3.2.1 模型 


近邻 法 中 ， 当 训练 集 、 距 离 度 量 ( 如 欧 氏 距离 )、k 值 及 分 类 决策 规则 (如 
多 数 表决 ) 确定 后 ， 对 于 任何 一 个 新 的 输入 实例 ， 它 所 属 的 类 唯一 地 确定 .这 相 
当 于 根据 上 述 要 素 将 特征 空间 划分 为 一 些 子 空间 , 确定 子 空间 里 的 每 个 点 所 属 的 
类 . 这 一 事实 从 最 近邻 算法 中 可 以 看 得 很 清楚 . 

特征 空间 中 ,对 每 个 训练 实例 点 ,距离 该 点 比 其 他 点 更 近 的 所 有 点 组 成 一 
个 区 域 ， 叫 作 单 元 (cell). 每 个 训练 实例 点 拥有 一 个 单元 ， 所 有 训练 实例 点 的 单 
元 构成 对 特征 空间 的 一 个 划分 . 最 近邻 法 将 实例 zx 的 类 yy 作为 其 单元 中 所 有 点 的 
类 标记 《class label)， 这样 ， 每 个 单元 的 实例 点 的 类 别 是 确定 的 ， 图 3.1 是 二 维 
特征 空间 刘 分 的 一 个 例子 . 


x 











-一 
0 xD) 


图 3.1 大 近邻 法 的 模型 对 应 特征 空间 的 一 个 划分 
3.2.2 ”距离 度量 


特征 空间 中 两 个 实例 点 的 距离 是 两 个 实例 点 相似 程度 的 反映 . 大 近邻 模型 的 特 
征 空间 一 般 是 n 维 实数 向 量 空 间 R”. 使 用 的 距离 是 欧 氏 距离 , 但 也 可 以 是 其 他 距离 ， 
如 更 一 般 的 L 距 离 (L, distance) 或 Minkowski 距离 (Minkowski distance). 
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3.2 大 近邻 模型 
设 特征 空间 尼 是 n 维 实数 向 量 空间 R"，%,x)e ,=(x09,x00 ,x07， 
= (Gzip 并， zz 的 工 距离 定义 为 
1 
L,(%,%))= ( 训 ”- i ry (3.2) 
这 里 六 >1. 当 p=2 时 ， 称 为 欧 氏 距离 (Buclidean distance)， 即 
1 
ze- 信 驹 -区 站 (3) 
{=1 
当 p=1 时 ， 称 为 曼哈顿 距离 《Manhattan distance)， 即 
1)= 六 次- a0 (3.4) 
当 忆 = 时 ， 它 是 各 个 坐标 距离 的 最 大 值 ， 即 
L555))=max | x 一 zx (3.5) 


图 32 给 出 了 二 维 空间 中 思 取 不 同 值 时 ， 与 原点 的 L, 距离 为 1 (=1) 的 


点 的 图 形 . 




















图 3.2 性 距离 问 的 关系 


下 面 的 例子 说 明 ， 由 不 同 的 距离 度量 所 确定 的 最 近邻 点 是 不 同 的 . 


例 3.1 己 知 二 维 空间 的 3 个 点 =01,D) ,为 =(5,0) ,w=(4,4)"， 试 求 在 p 


取 不 同 值 时 ， 工 , 距离 下 的 最 近邻 点 . 














解 ”因为 上 和 六 只 有 第 二 维 上 值 不 同 , 所 以 p 为 任何 值 时 , L(x,%)=4. 而 





Ls)=6, Lr,m)=424, L(A,n)=3.78, Ll,%)=3.57 


于 是 得 到 : p 等 于 1 或 2 时 ，%% 是 思 的 最 近邻 点 ，p 大 于 等 于 3 时 ， 
最 近邻 点 . 


思 是 的 
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3.2.3 上 值 的 选择 


k 值 的 选择 会 对 k 近 邻 法 的 结果 产生 重大 影响 . 

如 果 选 择 较 小 的 x 值 ， 就 相当 于 用 较 小 的 邻 域 中 的 训练 实例 进行 预测 ,“ 学 
习 ” 的 近似 误差 (approximation error) 会 减 小 ， 只 有 与 输入 实例 较 近 的 (相似 的 ) 
训练 实例 才 会 对 预测 结果 起 作用 . 但 缺点 是 “学 习 ” 的 估计 误差 (estimation error) 
会 增 大 , 预测 结果 会 对 近邻 的 实例 点 非常 敏感 外. 如 果 邻近 的 实例 点 恰巧 是 噪声 ， 
预测 就 会 出 错 . 换 句 话说 ，k 值 的 减 小 就 意味 着 整体 模型 变 得 复杂 ， 容 易 发 生 过 
拟 合 . 

如 果 选 择 较 大 的 天 值 ， 就 相当 于 用 较 大 邻 域 中 的 训练 实例 进行 预测 .其 优点 
是 可 以 减少 学 习 的 估计 误差 . 但 缺点 是 学 习 的 近似 误差 会 增 大 ,这 时 与 输入 实例 
较 远 的 (不 相似 的 ) 训练 实例 也 会 对 预测 起 作用 ， 使 预测 发 生 错 误 ， 大 值 的 增 大 
就 意味 着 整体 的 模型 变 得 简单 . 

如 果 上 = N ， 那 么 无 论 输 入 实例 是 什么 ， 都 将 简单 地 预测 它 属于 在 训练 实例 
中 最 多 的 类 . 这 时 ， 模 型 过 于 简单 ， 完 全 忽略 训练 实例 中 的 大 量 有 用 信息 ， 是 不 
可 取 的 . 

在 应 用 中 ，k 值 一 般 取 一 个 比较 小 的 数值 ， 通 常 采用 交叉 验证 法 来 选取 最 优 
的 k 值 . 


3.2.4 “分 类 决策 规则 


大 近邻 法 中 的 分 类 决策 规则 往往 是 多 数 表决 ， 即 由 输入 实例 的 大 个 邻近 的 训 
练 实例 中 的 多 数 类 决定 输入 实例 的 类 . 
多 数 表决 规则 (majority voting rule) 有 如 下 解释 : 如 果 分 类 的 损失 函数 为 0-1 
损失 函数 ， 分 类 函数 为 
IT:R" {600,07} 
那么 误 分 类 的 概率 是 
P(Y #f(X))=1-P(Y =/(X)) 
对 给 定 的 实例 xe ,其 最 近邻 的 个 训练 实例 点 构成 集合 N,(x). 如 果 涵 盖 N, (x) 
的 区 域 的 类 别 是 c,， 那 么 误 分 类 率 是 
人 > 160, xc) -1 下 2 70=c) 
9 


kvm Sem 





要 使 误 分 类 率 最 小 即 经 验 风险 最 小 ， 就 要 使 了 7(y, =c)) 最 大 ， 所 以 多 数 表 决 
五 EPZ 
规则 等 价 于 经 验 风险 最 小 化 . 
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3.3 近邻 法 的 实现 : td 树 


实现 近邻 法 时 ,主要 考虑 的 问题 是 如 何 对 训练 数据 进行 快速 kt 近邻 搜索 .这 
点 在 特征 空间 的 维 数 大 及 训练 数据 容量 大 时 尤其 必要 . 

近邻 法 最 简单 的 实现 方法 是 线性 扫描 (linear scan). 这 时 要 计算 输入 实例 与 
每 一 个 训练 实例 的 距离 . 当 训 练 集 很 大 时 , 计算 非常 耗 时 , 这 种 方法 是 不 可 行 的 . 

为 了 提高 k 近 邻 搜 索 的 效率 , 可 以 考虑 使 用 特殊 的 结构 存储 训练 数据 ,以 减少 
计算 距离 的 次 数 .具体 方法 很 多 ， 下 面 介绍 其 中 的 kd 树 (kd tree) 方法 9. 


3.3.1 构造 kd 树 


kd 树 是 一 种 对 k 维 空间 中 的 实例 点 进行 存储 以 便 对 其 进行 快速 检索 的 树 形 
数据 结构 。 kd 树 是 二 叉 树 ， 表 示 对 大 维 空间 的 一 个 划分 partition). 构造 好 树 相 
当 于 不 断 地 用 垂直 于 坐标 轴 的 超 平面 将 上 维 空间 切 分 , 构成 一 系列 的 k 维 超 和 矩形 区 
域 ，ka 树 的 每 个 结 点 对 应 于 一 个 上 维 超 和 矩形 区 域 . 

构造 kd 树 的 方法 如 下 : 构造 根 结 点 ， 使 根 结 点 对 应 于 大 维 空间 中 包含 所 有 实 
例 点 的 超 矩 形 区 域 ; 通过 下 面 的 递归 方法 ,不 断 地 对 k 维 空间 进行 切 分 ， 生 成 子 结 
点 ,在 超 矩 形 区 域 ( 结 点 ) 上 选择 一 个 坐标 轴 和 在 此 坐标 轴 上 的 一 个 切 分 点 ， 确 
定 一 个 超 平面 , 这 个 超 平面 通过 选 定 的 切 分 点 并 垂直 于 选 定 的 坐标 轴 , 将 当前 超 矩 
形 区 域 切 分 为 左右 两 个 子 区 域 ( 子 结 点 )， 这 时 ， 实 例 被 分 到 两 个 子 区 域 ， 这 个 
过 程 直 到 子 区 域内 没有 实例 时 终止 (终止 时 的 结 点 为 叶 结 点 )， 在 此 过 程 中 ， 将 
实例 保存 在 相应 的 结 点 上 . 

通常 ， 依 次 选择 坐标 轴 对 空间 切 分 ， 选 择 训 练 实例 点 在 选 定 坐标 轴 上 的 中 位 
数 (median)2 为 切 分 点 ， 这 样 得 到 的 kd 树 是 平衡 的 . 注意 , 平衡 的 kd 树 搜索 时 
的 效率 未 必 是 最 优 的 ， 

下 面 给 出 构造 kd 树 的 算法 . 

算法 3.2〈 构 造 平衡 kd 树 )》 

输入 : 大 维 空间 数据 集 了 = {x ,x,,…,xy}， 

其 中 多 =(x0,x x) i=1,2,…,N; 

输出 ，ka 树 . 

(1) 开始 : 构造 根 结 点 ， 根 结 点 对 应 于 包含 了 的 在 维 空间 的 超 矩形 区 域 . 

选择 x@ 为 坐标 轴 ， 以 了 中 所 有 实例 的 xo) 坐标 的 中 位 数 为 切 分 点 ， 将 根 结 点 
对 应 的 超 矩形 区 域 切 分 为 两 个 子 区 域 . 切 分 由 通过 切 分 点 并 与 坐标 轴 x 垂直 的 
超 平面 实现 . 








@@ 妇 树 是 存储 大 维 空间 数据 的 树 结构 ， 这 里 的 大 与 近邻 法 的 大 意义 不 同 ,为 了 与 习惯 一 致 ， 本 书 仍 用 好 树 的 名 称 . 
加 一 组 数据 按 大 小 顺序 排列 起 来 ， 处 在 中 间 位 置 的 一 个 数 或 最 中 间 两 个 数 的 平均 值 . 
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由 根 结 点 生成 深度 为 1 的 左 、 右 子 结 点 : 左 子 结 点 对 应 坐标 xo 小 于 切 分 点 
的 子 区 域 ， 右 子 结 点 对 应 于 坐标 xo 大 于 切 分 点 的 子 区 域 . 

将 落 在 切 分 超 平面 上 的 实例 点 保存 在 根 结 点 . 

《2) 重复 : 对 深度 为 了 的 结 点 ， 选 择 xo 为 切 分 的 坐标 轴 ，17 = j(modk)+1， 
以 该 结 点 的 区 域 中 所 有 实例 的 xo 坐标 的 中 位 数 为 切 分 点 ， 将 该 结 点 对 应 的 超 
矩形 区 域 切 分 为 两 个 子 区 域 . 切 分 由 通过 切 分 点 并 与 坐标 轴 x@ 垂直 的 超 平面 
实现 . 

由 该 结 点 生成 深度 为 了 +1 的 左 、 右 子 结 点 : 左 子 结 点 对 应 坐标 xo 小 于 切 分 
点 的 子 区 域 ， 右 子 结 点 对 应 坐标 xi 大 于 切 分 点 的 子 区 域 . 

将 落 在 切 分 超 平面 上 的 实例 点 保存 在 该 结 点 . 

(3) 直到 两 个 子 区 域 没有 实例 存在 时 停止 ， 从 而 形成 ka 树 的 区 域 划分 ， 自 

例 3.2 给 定 一 个 二 维 空间 的 数据 集 : 

T ={(2,3)",(5,4)", (9,6)",(4,7)",(8,D",(7,2)"} 
构造 一 个 平衡 好 树 ?. 

解 ” 根 结 点 对 应 包含 数据 集 7 的 矩形 ， 选 择 xo 轴 ，6 个 数据 点 的 x 中 坐标 的 
中 位 数 是 7， 以 平面 x =7 将 空间 分 为 左 、 右 两 个 子 矩 形 〈 子 结 点 );， 接 着 ， 左 矩 
形 以 x% =4 分 为 两 个 子 矩形 ， 右 矩形 以 x2) = 6 分 为 两 个 子 矩形 ， 如 此 递归 ， 最 


























后 得 到 如 图 3.3 所 示 的 特征 空间 划分 和 如 图 3.4 所 示 的 ka 树 . n 
10 
sr 1 
6 上 
办 ] 
2 4 6 8 10 
图 3.3 特征 空间 划分 
3.3.2 搜索 kad 树 


下 面 介 绍 如 何 利用 kd 树 进行 x 近邻 搜索 . 可 以 看 到 ， 利 用 ka 树 可 以 省 去 对 


图 取 自 Wikipedia. 
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图 3.4 kd 树 示例 


大 部 分 数据 点 的 搜索 ， 从 而 减少 搜索 的 计算 量 . 这 里 以 最 近邻 为 例 加 以 叙述 ， 同 
样 的 方法 可 以 应 用 到 kk 近邻. 

给 定 一 个 目标 点 ,搜索 其 最 近邻 . 首先 找到 包含 目标 点 的 叶 结 点 ; 然后 从 该 叶 
结 点 出 发 ,依次 回 退 到 父 结 点 ; 不 断 查 找 与 目标 点 最 邻近 的 结 点 ， 当 确定 不 可 能 存 
在 更 近 的 结 点 时 终止 ， 这 样 搜索 就 被 限制 在 空间 的 局 部 区 域 上 ， 效 率 大 为 提高 

包含 目标 点 的 叶 结 点 对 应 包含 目标 点 的 最 小 超 矩 形 区 域 . 以 此 叶 结 点 的 实例 
点 作为 当前 最 近 点 . 目标 点 的 最 近邻 一 定 在 以 目标 点 为 中 心 并 通过 当前 最 近 点 的 
超 球 体 的 内 部 〈 参 阅 图 3.8)， 然 后 返回 当前 结 点 的 父 结 点 ， 如 果 父 结 点 的 另 一 子 
结 点 的 超 矩形 区 域 与 超 球体 相交 , 那么 在 相交 的 区 域内 寻找 与 目标 点 更 近 的 实例 
点 .如 果 存 在 这 样 的 点 ， 将 此 点 作为 新 的 当前 最 近 点 . 算法 转 到 更 上 一 级 的 父 结 
点 ， 继 续 上 述 过 程 . 如 果 父 结 点 的 另 一 子 结 点 的 超 矩形 区 域 与 超 球体 不 相交 ， 或 
不 存在 比 当前 最 近 点 更 近 的 点 ， 则 停止 搜索 

下 面 叙述 用 和 树 的 最 近邻 搜索 算法 . 

算法 3.3〈 用 kd 树 的 最 近邻 搜索 ) 

输入 : 已 构造 的 ka 树 ， 目 标点 x; 

输出 ，x 的 最 近邻 . 

(1) 在 妇 树 中 找 出 包含 目标 点 x 的 叶 结 点 : 从 根 结 点 出 发 , 递归 地 向 下 访问 
kd 树 . 若 目标 点 x 当 前 维 的 坐标 小 于 切 分 点 的 坐标 ， 则 移动 到 左 子 结 点 ， 否 则 移 
动 到 右 子 结 点 .直到 子 结 点 为 叶 结 点 为 止 

(2) 以 此 叶 结 点 为 “当前 最 近 点 ”. 

(3) 递归 地 向 上 回 退 ， 在 每 个 结 点 进行 以 下 操作 : 

(a) 如 果 该 结 点 保存 的 实例 点 比 当前 最 近 点 距离 目标 点 更 近 ， 则 以 该 实例 点 
为 “当前 最 近 点 ”. 

《b) 当前 最 近 点 一 定 存在 于 该 结 点 一 个 子 结 点 对 应 的 区 域 . 检查 该 子 结 点 的 
父 结 点 的 另 一 子 结 点 对 应 的 区 域 是 否 有 更 近 的 点 . 具体 地 ， 检 查 另 一 子 结 点 对 应 
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的 区 域 是 否 与 以 目标 点 为 球 心 、 以 目标 点 与 “当前 最 近 点 ” 间 的 距离 为 半径 的 超 
球体 相交 . 

如 果 相 交 ， 可 能 在 另 一 个 子 结 点 对 应 的 区 域内 存在 距 目 标点 更 近 的 点 , 移动 
到 另 一 个 子 结 点 ， 接着， 递归 地 进行 最 近邻 搜索 ; 

如 果 不 相交 ， 向 上 回 退 ， 

(4) 当 回 退 到 根 结 点 时 ， 搜 索 结 束 . 最 后 的 “当前 最 近 点 ” 即 为 x 的 最 近 
邻 点 . ] 
如 果实 例 点 是 随机 分 布 的,， ka 树 搜索 的 平均 计算 复杂 度 是 Odog N) , 这 里 
是 训练 实例 数 . kd 树 更 适用 于 训练 实例 数 远 大 于 空间 维 数 时 的 k 近 邻 搜索 . 当空 
间 维 数 接近 训练 实例 数 时 ， 它 的 效率 会 迅速 下 降 ， 几 乎 接近 线性 扫描 . 

下 面 通 过 一 个 例题 来 说 明 搜 索 方法 . 

例 3.3 给 定 一 个 如 图 3.5 所 示 的 hq 树 , 根 结 点 为 4 ,其 子 结 点 为 8, C 等 . 树 
上 共存 储 7 个 实例 点 ， 另 有 一 个 输入 目标 实例 点 S， 求 8 的 最 近邻 . 

解 首先 在 ka 树 中 找到 包含 点 8 的 叶 结 点 D〈 图 中 的 右 下 区 域 ), 以 点 DD 作为 
近似 最 近邻 . 真正 最 近邻 一 定 在 以 点 5 为 中 心 通过 点 DD 的 圆 的 内 部 . 然后 返回 结 
点 品 的 父 结 点 ,在 结 点 8 的 另 一 子 结 点 的 区 域内 搜索 最 近邻 ， 结 点 下 的 区 域 
与 圆 不 相交 ， 不 可 能 有 最 近邻 点 .继续 返回 上 一 级 父 结 点 4 ， 在 结 点 4 的 另 一 子 结 
点 C 的 区 域内 搜索 最 近邻 . 结 点 C 的 区 域 与 圆 相交 ; 该 区 域 在 圆 内 的 实例 点 有 点 已 ， 
点 吾 比 点 吃 更 近 ， 成 为 新 的 最 近邻 近似 ， 最 后 得 到 点 是 点 5 的 最 近邻 . 中 
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图 3.5 通过 刀 树 搜索 最 近邻 


本 章 概要 


1. 大 近邻 法 是 基本 且 简 单 的 分 类 与 回归 方法 . 大 近邻 法 的 基本 做 法 是 : 对 给 
定 的 训练 实例 点 和 输入 实例 点 ， 首 先 确定 输入 实例 点 的 大 个 最 近邻 训练 实例 点 ， 然 
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后 利用 这 个 训练 实例 点 的 类 的 多 数 来 预测 输入 实例 点 的 类 . 

2. 人 近邻 模型 对 应 于 基于 训练 数据 集 对 特征 空间 的 一 个 划分 . 近邻 法 中 ， 
当 训 练 集 、 距 离 度量 、 大 值 及 分 类 决策 规则 确定 后 ， 其 结果 唯一 确定 . 

3. 上 近邻 法 三 要 素 : 距离 度量 、k 值 的 选择 和 分 类 决策 规则 .常用 的 距离 度 
量 是 欧 氏 距离 及 更 一 般 的 工 , 距离 . 大 值 小 时 , 大 近邻 模型 更 复杂 ; k 值 大 时 , k 近 
邻 模型 更 简单 .， 值 的 选择 反映 了 对 近似 误差 与 估计 误差 之 间 的 权衡 ， 通 常 由 交 
又 验证 选择 最 优 的 k. 常用 的 分 类 决策 规则 是 多 数 表决 , 对 应 于 经 验 风 险 最 小 化 . 

4. 上 近邻 法 的 实现 需要 考虑 如 何 快速 搜索 个 最 近邻 点 ka 树 是 一 种 便于 
对 k 维 空间 中 的 数据 进行 快速 检索 的 数据 结构 ，kd 树 是 二 又 树 ， 表 示 对 天 维 空间 
的 一 个 划分 , 其 每 个 结 点 对 应 于 丰 维 空间 划分 中 的 一 个 超 矩 形 区 域 . 利用 tg 树 可 
以 省 去 对 大 部 分 数据 点 的 搜索 ， 从 而 减少 搜索 的 计算 量 . 


继续 阅读 


上 近邻 法 由 Cover 与 Hart 提出 中，k 近 邻 法 相关 的 理论 在 文献 [2, 3] 中 已 有 论 
述 . 近邻 法 的 扩展 可 参考 文献 [4]，ka 树 及 其 他 快速 搜索 算法 可 参见 文献 [5]. 关 
于 k 近 邻 法 的 介绍 可 参考 文献 [2]. 


习 题 


参照 图 3.1， 在 二 维 空间 中 给 出 实例 点 ， 画 出 为 1 和 2 时 的 k 近 邻 法 构成 的 
空间 划分 , 并 对 其 进行 比较 , 体会 值 选择 与 模型 复杂 度 及 预测 准确 率 的 关系 . 
3.2 ”利用 例题 3.2 构造 的 ka 树 求 点 x=(3,4.5)" 的 最 近邻 点 . 

3.3 参照 算法 3.3， 写 出 输出 为 x 的 上 近邻 的 算法 . 
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第 4 章 朴素 贝 叶 斯 法 


朴素 贝 叶 斯 (naive Bayes) 法 是 基于 贝 叶 斯 定理 与 特征 条 件 独立 假设 的 分 类 
方法 8. 对 于 给 定 的 训练 数据 集 ， 首 先 基于 特征 条 件 独立 假设 学 习 输 入 /输出 的 联合 
概率 分 布 ， 然后 基于 此 模型 ， 对 给 定 的 输入 x， 利 用 贝 叶 斯 定理 求 出 后 验 概 率 最 大 
的 输出 y. 朴素 贝 叶 斯 法 实现 简单 , 学 习 与 预测 的 效率 都 很 高 , 是 一 种 常用 的 方法 ， 

本 章 令 述 朴 素 贝 叶 斯 法 ， 包 括 朴素 贝 叶 斯 法 的 学 习 与 分 类 、 朴 素 贝 叶 斯 法 的 
参数 估计 算法 . 


4.1 朴素 贝 叶 斯 法 的 学 习 与 分 类 


4.1.1 基本 方法 


设 输入 空间 CcR" 为 n 维 向 量 的 集合 ， 输 出 空间 为 类 标记 集合 了 =f{6， 
c,,…,Cx}， 输入 为 特征 向 量 xe 写 ， 输 出 为 类 标记 (class label) ye .天 是 定义 
在 输入 空间 上 的 随机 向 量 ，Y 是 定义 在 输出 空间 y》 上 的 随机 变量 。 P(X, 了 站) 是 
针 和 了 的 联合 概率 分 布 ， 训 练 数据 集 


T={04,7),(%2, 力 )… (xys py)} 


由 P(X, 了 ) 独立 同 分 布 产 生 . 
朴素 贝 叶 斯 法 通过 训练 数据 集 学 习 联合 概率 分 布 P(X,Y) .具体 地 ， 学 习 以 
下 先 验 概率 分 布 及 条 件 概率 分 布 ， 先 验 概率 分 布 


PlY=0), k=12,…,K (4.1) 
条 件 概率 分 布 
P(X=x|Y=c)=P(XV =x0,, XV=xV Y=0), k=b2,,K (42) 
于 是 学 习 到 联合 概率 分 布 P(X,Y). 


条 件 概率 分 布 P(X =xlY= ct) 有 指数 级 数量 的 参数 ， 其 估计 实际 是 不 可 行 
的 . 事实 上 , 假设 x 可 取 值 有 5S, 个 ，j=1,2,…,n， 了 可 取 值 上 有 KK 个 ， 那么 参数 


个 数 为 KT Ts 





@@ 注意 ， 朴素 贝 叶 斯 法 与 贝 叶 斯 估计 〈Bayesian estimation) 是 不 同 的 概念 . 
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朴素 贝 叶 斯 法 对 条 件 概率 分 布 作 了 条 件 独立 性 的 假设 . 由 于 这 是 一 个 较 强 的 
假设 ， 朴 素 贝 叶 斯 法 也 由 此 得 名 .具体 地 ， 条 件 独立 性 假设 是 


P(X=x|Y=5)=PO® =20,., KO =x0 Y=6) 


= 下 zexw =x0]Y=60) (4.3) 
f=l 


朴素 贝 叶 斯 法 实际 上 学 习 到 生成 数据 的 机 制 ， 所 以 属于 生成 模型 . 条 件 独立 
假设 等 于 是 说 用 于 分 类 的 特征 在 类 确定 的 条 件 下 都 是 条 件 独立 的 . 这 一 假设 使 朴 
素 贝 叶 斯 法 变 得 简单 ， 但 有 时 会 牺牲 一 定 的 分 类 准确 率 . 
朴素 贝 叶 斯 法 分 类 时 ， 对 给 定 的 输入 x， 通 过 学 习 到 的 模型 计算 后 验 概率 分 
布 P(Y=ci |XX=x)， 将 后 验 概率 最 大 的 类 作为 x 的 类 输出 .后 验 概 率 计算 根 据 贝 
叶 斯 定理 进行 : 
P(X=xIY=c)P(Y =c,)- 


人 = |X -DF pr Pe) 


(4.4) 


将 式 (4.3) 代入 式 (4.4) 有 
PCZ=coILIPCK2 =x217=c) 
,PCZ= coTTLPC2 =x0 Y=c) 
这 是 朴素 贝 叶 斯 法 分 类 的 基本 公式 ， 于是， 朴素 贝 叶 斯 分 类 器 可 表示 为 
POY =c)TI,P(XY =x7 Y=6,) 


Pl(Y=c, |X=x)= 





k=1,2,.,K (4.5) 





"Tm pro lL Pe 9 
注意 到 ， 在 式 (4.6) 中 分 母 对 所 有 ct 都 是 相同 的 ， 所 以 ， 
y=argmax P(Y =c)IL, PX" =x0|Y=c,) (4.7) 


4.1.2 后 验 概率 最 大 化 的 含义 


朴素 贝 叶 斯 法 将 实例 分 到 后 验 概率 最 大 的 类 中 . 这 等 价 于 期 望 风险 最 小 化 . 假 
设 选择 0-1 损失 函数 : 


1 Y#/(X) 


ioron-e He 


式 中 /(X) 是 分 类 决策 函数 .这 时 ， 期 望 风 险 函 数 为 
Ra (f) = ELL(Y, F(X))] 
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期 望 是 对 联合 分 布 P(X, 六 取 的 .由 此 取 条 件 期 望 
R=Er YL, /OP | 
为 了 使 期 望 风险 最 小 化 ， 只 需 对 X=x 逐个 极 小 化 ， 由 此 得 到 : 


/0 =argmind Li, WP(ci |X = 
yey ra 


=agmp2 Pozo |X=») 
=argmip(l -PO =0 | X=) 
=argmax PO'=c.|X=7) 

这 样 一 来 ， 根 据 期 望 风 险 最 小 化 准则 就 得 到 了 后 验 概率 最 大 化 准则 ; 


f(x) =argmax P(c |X =) 
即 朴 素 贝 叶 斯 法 所 采用 的 原理 . 


4.2 ”朴素 贝 叶 斯 法 的 参数 估计 

4.2.1 极 大 似 然 估计 

在 朴素 贝 叶 斯 法 中 ,学 习 意味 着 估计 P(Y = co) 和 PCXKO =xw17= co). 可 以 
应 用 极 大 似 然 估 计 法 估计 相应 的 概率 ， 先 验 概率 P(Y = ct) 的 极 大 似 然 估 计 是 

pa Qi=0) 
PS me k=1,2,.…,K (4.8) 

设 第 j 个 特征 x 可 能 取 值 的 集合 为 {an,a,…,ajs }, 条 件 概率 P(X0 =aj |Y =c,) 
的 极 大 似 然 估计 是 


N 
ZI =ay, =0) 
P(X™ =4a|lY=6)= 

ZI0,=0) 


py 


j=b,2,%,n; 1=1,2,,5); k=1,2,,K (4.9) 


学 


式 中 ，x0 是 第 ;个 样本 的 第 7 个 特征 :ax 是 第 j 个 特征 可 能 取 的 第 /个 值 ，/ 为 
指示 函数 ， 
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4.2.2 ”学 习 与 分 类 算法 


下 面 给 出 朴素 贝 叶 斯 法 的 学 习 与 分 类 算法 . 

算法 4.1 (朴素 贝 叶 斯 算法 Cnaive Bayes algorithm)) 

输入 : 训练 数据 了 = fx) 区) 0: 力 ) Gov 其 中 %=(x 中 ,X00 
x 人 ?是 第 i 个 样本 的 第 j 个 特征 ，xe {an,aj2,…,ajs,}，ay 是 第 j 个 特征 可 能 取 
的 第 /个 值 ，j=1,2,…,n，[=1,2,…,S)， 久 Ee {cc2…,Ck}; 实例 x; 

输出 : 实例 x 的 分 类 . 

(1) 计算 先 验 概率 及 条 件 概率 


N 
> ro =cD 
PC=c0= 亿 rr 大 =12…, 天 


pe = a =c) 
PXV=a T=0)= 
210,=¢) 
和 1 
j=L,2,n T=1,2,,5); 天 =12… 天 
(2) 对 于 给 定 的 实例 zx= (xz@,x2…,xo)， 计 算 
PO =c)T [P(X =2017=0), k=12,..,K 
jal 
(3) 确定 实例 x 的 类 
y=argmax P(Y =c)] [P(X =x0 Y=6) mn 
a pe 
例 4.1 试 由 表 4.1 的 训练 数据 学 习 一 个 朴素 贝 叶 斯 分 类 器 并 确定 x= (2,S)7 


的 类 标记 y. 表 中 六 ,外 为 特征 , 取 值 的 集合 分 别 为 4 ={1,2,3} , 4 ={5,M, 工 }， 
了 为 类 标记 ，Ye C={1,-l}. 








表 4.1 训练 数据 
1 2 3 4 5 6 7 8 9 10 1 12 13 14 15 
1 
X® ss MMS Ss ss MML L LI M ML L 
和 和 


解 根据 算法 4.1， 由 表 4.1， 容 易 计算 下 列 概率 : 


4.2_ 朴 素 贝 叶 斯 法 的 参数 估计 51 





9 6 
POY=D=75, PlY=-D= 


P(X® -117=D=2， PC =217=D)=2, POCO -3I7=D= 了 


PC =SI7=D=3， PC =MIY=D=4, PC -LY=D=4 
PC -=1I7=-D=z， PC =2I7=-D=2， PC =3I7=-D- 


PX® =SI7=-D=2, PX® =MIY=-D=3,. PC =LIY=-D=3 


对 于 给 定 的 x=(2,5)" 计算 : 
Pl(Y=DP(X® =2|Y=1D)P(X® =SI7=D)= 一 .二 .二 0 


因为 PY=-DP(CXO =2]JY=-1DP(X® =SI7=-D 最 大 所 以 >= -1. 站 
4.2.3 ” 贝 叶 斯 估计 


用 极 大 似 然 估计 可 能 会 出 现 所 要 估计 的 概率 值 为 0 的 情况 . 这 时 会 影响 到 后 
验 概率 的 计算 结果 , 使 分 类 产生 偏差 . 解决 这 一 问题 的 方法 是 采用 贝 叶 斯 估计 . 具 
体 地 ， 条 件 概率 的 贝 叶 斯 估计 是 
六 ro =ayyi=c)+4 
中 GO =ol7=c= 旺 二 一 一 一 (4.10) 
DI,=0)+5,4 
i=} 


式 中 4 宇 0. 等 价 于 在 随机 变量 各 个 取 值 的 频数 上 赋予 一 个 正 数 4> 0 . 当 4=0 时 


就 是 极 大 似 然 估计 . 常 取 ?4 =1， 这 时 称 为 拉 普 拉 斯 平滑 (Laplace smoothing). 显 
然 ， 对 任何 1=12,…,S,， 大 =12,…, 玉 ， 有 


BX =ax|lY=c)>0 


5, 
> Perw=aml7=a)=1 


表明 式 (4.10) 确 为 一 种 概率 分 布 .同样 ， 先 验 概率 的 贝 叶 斯 估计 是 


F106, =G)+4 


RGC=cD= 气 AR (4.11) 
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例 4.2 问题 同 例 4.1， 按 照 拉 普 拉 斯 平滑 估计 概率 ， 即 取 4=1. 
解 4= 山 2.3}， 二 ={S,M 有，C= 贡 -]. 按照 式 (4.10) 和 式 (4.11) 计算 下 
列 概率 : 


10 7 
POY=D=77* PO=-D= 
Pro -=1I7=D= 了 ， PCrO =2I7=D= 了 全 ， Pro =3I7=D= 二 
12 12 12 
PUro =sI7=D= 二 ，POKo =MI7=D= 二 ， PGKO =ZI7=D= 工 
12 12 12 
POCO =1Y=-D)=4, PC =217=-D=3， PO =31Y=-D)=2 


P(X™ =SIY=-D=4, PC = MIY=-D=3, P(X® =LI7=-D=3 


对 于 给 定 的 Y= (2,S) 计算 : 





10 4 2 
= = = 人 = =])=—. i y 

P(Y =DP(X® =2|Y=DP(X® =SI7=D= 0.0327 
734 28 

- W217Y=-DP(X® =SI7=-D= 一 .二 .二 =- 一 =0.0610 
P(Y =—1)P(X | )P( S| TD) TS 
由 于 PCXY=-DPCO =217=-DPC2 =SIY=-]) 最 大 ， 所 以 y=-1. 四 
本 章 概 要 


1. 朴素 贝 叶 斯 法 是 典型 的 生成 学 习 方 法 .生成 方法 由 训练 数据 学 习 联 合 概 
率 分 布 P(X,Y)， 然 后 求 得 后 验 概率 分 布 P(Y|X) . 具体 来 说 ， 利 用 训练 数据 学 习 
P(X1Y) 和 P(Y) 的 估计 ， 得 到 联合 概率 分 布 : 


P(X,Y)=P(Y)P(XIY) 


概率 估计 方法 可 以 是 极 大 似 然 估计 或 贝 叶 斯 估计 : 
2. 朴素 贝 叶 斯 法 的 基本 假设 是 条 件 独立 性 ， 


P(X=x|lY=c)=P(X® =x0,., XO =x" [Y=6,) 
=TIPexw 一 20) I7=co 
j=1 


这 是 一 个 较 强 的 假设 .由 于 这 一 假设 ， 模 型 包含 的 条 件 概率 的 数量 大 为 减少 ， 朴 
素 贝 叶 斯 法 的 学 习 与 预测 大 为 简化 ， 因 而 朴素 贝 叶 斯 法 高 效 ， 且 易于 实现 .其 缺 
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点 是 分 类 的 性 能 不 一 定 很 高 . 
3。 材 素 贝 叶 斯 法 利用 贝 叶 斯 定理 与 学 到 的 联合 概率 模型 进行 分 类 预测 . 


_PED _ POP ID) 
DT PO) FPPAID 
了 
将 输入 x 分 到 后 验 概率 最 大 的 类 y. 
y=argmax POY =c)] P(X, =x Y=6,) 
1 


后 验 概率 最 大 等 价 于 0-1 损失 函数 时 的 期 望 风险 最 小 化 . 
继续 阅读 


朴素 贝 叶 斯 法 的 介绍 可 见 文献 [1, 2]. 朴素 贝 叶 斯 法 中 假设 输入 变量 都 是 条 件 
独立 的 ， 如 果 假 设 它们 之 间 存 在 概率 依存 关系 ， 模 型 就 变 成 了 贝 叶 斯 网 络 ， 参 见 


文献 [3]. 
习 题 


4.1 用 极 大 似 然 估 计 法 推出 朴素 贝 叶 斯 法 中 的 概率 估计 公式 (4.8) 及 公式 (4.9) . 
4.2 用 贝 叶 斯 估计 法 推出 朴素 贝 叶 斯 法 中 的 概率 估计 公式 (4.10) 及 公式 (4.11) . 
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第 5 章 决 策 树 


决策 树 (decision tree) 是 一 种 基本 的 分 类 与 回归 方法 本章 主要 讨论 用 于 分 类 
的 决策 树 . 决策 树 模 型 呈 树 形 结构 ,在 分 类 问题 中 ,表示 基于 特征 对 实例 进行 分 类 
的 过 程 . 它 可 以 认为 是 fthen 规则 的 集合 ,也 可 以 认为 是 定义 在 特征 空间 与 类 空 
间 上 的 条 件 概率 分 布 . 其 主要 优点 是 模型 具有 可 读 性 ,分 类 速度 快 . 学 习 时 , 利用 
训练 数据 ， 根 据 损失 函数 最 小 化 的 原则 建立 决策 树 模型 . 预测 时 ， 对 新 的 数据 ， 利 
用 决策 树 模型 进行 分 类 . 决策 树 学 习 通 常 包括 3 个 步骤 : 特征 选择 、 决 策 树 的 生成 
和 决策 树 的 修剪 .这 些 决策 树 学 习 的 思想 主要 来 源 于 由 Quinlan 在 1986 年 提出 的 ID3 
算法 和 1993 年 提出 的 C4.5 算法 , 以 及 由 Breiman 等 人 在 1984 年 提出 的 CART 算法 ， 

本 章 首先 介绍 决策 树 的 基本 概念 ， 然 后 通过 ID3 和 C4.5 介绍 特征 的 选择 、 决 
策 树 的 生成 以 及 决策 树 的 修剪 ， 最 后 介绍 CART 算法 . 


5.1 决策 树 模型 与 学 习 


5.1.1 决策 树 模 型 


定义 $.1 (决策 树 ) 分 类 决策 树 模型 是 一 种 描述 对 实例 进行 分 类 的 树 形 结 
构 . 决策 树 由 结 点 node) 和 有 向 边 〈directed edge) 组 成 . 结 点 有 两 种 类 型 : 内 
部 结 点 〈internal node) 和 叶 结 点 〈leaf node)， 内 部 结 点 表示 一 个 特征 或 属性 ， 叶 
结 点 表示 一 个 类 . 

用 决策 树 分 类 ,从 根 结 点 开始 , 对 实例 的 某 一 特征 进行 测试 , 根据 测试 结果 ， 
将 实例 分 配 到 其 子 结 点 ; 这 时 ， 每 一 个 子 结 点 对 应 着 该 特征 的 一 个 取 值 . 如 此 递 
归 地 对 实例 进行 测试 并 分 配 ， 直 至 达到 叶 结 点 .最 后 将 实例 分 到 叶 结 点 的 类 中 . 


图 5.1 是 一 个 决策 树 的 示意 图 .图 中 圆 和 方 框 分 别 表示 内 部 结 点 和 叶 结 点 . 


图 5.1 决策 树 模型 
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5.1.2 决策 树 与 fthen 规则 


可 以 将 决策 树 看 成 一 个 让 then 规则 的 集合 .将 决策 树 转换 成 还 then 规则 的 
过 程 是 这 样 的 : 由 决策 树 的 根 结 点 到 叶 结 点 的 每 一 条 路 径 构建 一 条 规则 ;路 径 上 
内 部 结 点 的 特征 对 应 着 规则 的 条 件 ， 而 叶 结 点 的 类 对 应 着 规则 的 结论 . 决策 树 的 
路 径 或 其 对 应 的 下 then 规则 集合 具有 一 个 重要 的 性 质 : 互 斥 并 且 完备 . 这 就 是 说 ， 
每 一 个 实例 都 被 一 条 路 径 或 一 条 规则 所 覆盖 ,而 且 只 被 一 条 路 径 或 一 条 规则 所 履 
盖 . 这 里 所 谓 覆 盖 是 指 实例 的 特征 与 路 径 上 的 特征 一 致 或 实例 满足 规则 的 条 件 . 


5.1.3 ”决策 树 与 条 件 概 率 分 布 


决策 树 还 表示 给 定 特征 条 件 下 类 的 条 件 概 率 分 布 . 这 一 条 件 概 率 分 布 定义 在 
特征 空间 的 一 个 划分 〈partition) 上 . 将 特征 空间 划分 为 互 不 相交 的 单元 (cell) 或 
区 域 (region)， 并 在 每 个 单元 定义 一 个 类 的 概率 分 布 就 构成 了 一 个 条 件 概率 分 
布 ， 决策 树 的 一 条 路 径 对 应 于 划分 中 的 一 个 单元 .决策 树 所 表示 的 条 件 概率 分 布 
由 各 个 单元 给 定 条 件 下 类 的 条 件 概率 分 布 组 成 ， 假 设 X 为 表示 特征 的 随机 变量 ， 
Z 为 表示 类 的 随机 变量 ， 那 么 这 个 条 件 概率 分 布 可 以 表示 为 P(Y|X) .XX 取 值 于 
给 定 划分 下 单元 的 集合 ， 取 值 于 类 的 集合 ， 各 叶 结 点 〈 单 元 ) 上 的 条 件 概率 往 
往 偏向 某 一 个 类 ， 即 属于 某 一 类 的 概率 较 大 . 决策 树 分 类 时 将 该 结 点 的 实例 强行 
分 到 条 件 概率 大 的 那 一 类 去 . 

图 5.2 (a) 示意 地 表示 了 特征 空间 的 一 个 划分 . 图 中 的 大 正方 形 表示 特征 空 
间 . 这 个 大 正方 形 被 若干 个 小 矩形 分 割 ， 每 个 小 矩形 表示 一 个 单元 , 特征 空间 划 
分 上 的 单元 构成 了 一 个 集合 ，XX 取 值 为 单元 的 集合 ， 为 简单 起 见 ， 假 设 只 有 两 
类 : 正 类 和 负 类 ， 即 了 取 值 为 +1 和 -1. 小 矩形 中 的 数字 表示 单元 的 类 . 图 5.2 (b) 
示意 地 表示 特征 空间 划分 确定 时 ， 特 征 〈 单 元 ) 给 定 条 件 下 类 的 条 件 概率 分 布 ， 
图 5.2 (b) 中 条 件 概率 分 布 对 应 于 图 5.2 (a) 的 划分 . 当 某 个 单元 c 的 条 件 概率 满 
是 PIY=+1| 匀 =c)>0.5 时 ， 则 认为 这 个 单元 属于 正 类 ， 即 落 在 这 个 单元 的 实例 
都 被 视 为 正 例 . 图 5.2 〈c) 为 对 应 于 图 5.2 (b) 中 条 件 概率 分 布 的 决策 树 . 


5.1.4 ”决策 树 学 习 
决策 树 学 习 ， 假 设 给 定 训练 数据 集 
D={(4,7),(%, 2), (Xn, yy)} 


其 中 ,% = x9,x 四 ,…,x") 为 输入 实例 (特征 向 量 ),n 为 特征 个 数 ,ye {1,2,…,K} 
为 类 标记 ，1=12,…,N，N 为 样本 容量 .学 习 的 目标 是 根据 给 定 的 训练 数据 集 构 
建 一 个 决策 横 模 型 ， 使 它 能 够 对 实例 进行 正确 的 分 类 . 
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(©) 决策 树 
图 5.2 ”决策 树 对 应 于 条 件 概率 分 布 


决策 树 学 习 本 质 上 是 从 训练 数据 集中 归纳 出 一 组 分 类 规则 . 与 训练 数据 集 不 
相 矛 盾 的 决策 树 〈 即 能 对 训练 数据 进行 正确 分 类 的 决策 树 ) 可 能 有 多 个 ， 也 可 能 
一 个 也 没有 . 我 们 需要 的 是 一 个 与 训练 数据 矛盾 较 小 的 决策 树 ， 同 时 具有 很 好 的 
泛 化 能 力 . 从 另 一 个 角度 看 ， 决 策 树 学 习 是 由 训练 数据 集 估 计 条 件 概率 模型 ， 基 
于 特征 空间 划分 的 类 的 条 件 概率 模型 有 无 穷 多 个 . 我 们 选择 的 条 件 概率 模型 应 该 
不 仅 对 训练 数据 有 很 好 的 拟 合 ， 而 且 对 未 知 数据 有 很 好 的 预测 . 

决策 树 学 习 用 损失 函数 表示 这 一 目标 . 如 下 所 述 , 决策 树 学 习 的 损失 函数 通常 
是 正则 化 的 极 大 似 然 函数 ,决策 树 学 习 的 策略 是 以 损失 函数 为 目标 函数 的 最 小 化 . 

当 损失 函数 确定 以 后 ， 学 习 问 题 就 变 为 在 损失 函数 意义 下 选择 最 优 决 策 树 的 
问题 .因为 从 所 有 可 能 的 决策 树 中 选取 最 优 决策 树 是 NP 完全 问题 ， 所 以 现实 中 
决策 树 学 习 算法 通常 采用 启发 式 方法 ， 近 似 求解 这 一 最 优化 问题 . 这 样 得 到 的 决 
策 树 是 次 最 优 (sub-optimal) 的 

决策 树 学 习 的 算法 通常 是 一 个 递归 地 选择 最 优 特征 ， 并 根据 该 特征 对 训练 数 
据 进行 分 割 ， 使 得 对 各 个 子 数据 集 有 一 个 最 好 的 分 类 的 过 程 . 这 一 过 程 对 应 着 对 
特征 空间 的 划分 ， 也 对 应 着 决策 树 的 构建 . 开始 ， 构 建 根 结 点 ， 将 所 有 训练 数据 
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都 放 在 根 结 点 . 选择 一 个 最 优 特征 ， 按 照 这 一 特征 将 训练 数据 集 分 割 成 子 集 ， 使 
得 各 个 子 集 有 一 个 在 当前 条 件 下 最 好 的 分 类 . 如 果 这 些 子 集 已 经 能 够 被 基本 正确 
分 类 ， 那 么 构建 叶 结 点 ， 并 将 这 些 子 集 分 到 所 对 应 的 叶 结 点 中 去 ， 如 果 还 有 子 集 
不 能 被 基本 正确 分 类 , 那么 就 对 这 些 子 集 选择 新 的 最 优 特征 , 继续 对 其 进行 分 割 ， 
构建 相应 的 结 点 . 如 此 递归 地 进行 下 去 , 直至 所 有 训练 数据 子 集 被 基本 正确 分 类 ， 
或 者 没有 合适 的 特征 为 止 。 最 后 每 个 子 集 都 被 分 到 叶 结 点 上 ， 即 都 有 了 明确 的 
类 .这 就 生成 了 一 棵 决策 树 . 

以 上 方法 生成 的 决策 树 可 能 对 训练 数据 有 很 好 的 分 类 能 力 , 但 对 未 知 的 测试 
数据 却 未 必 有 很 好 的 分 类 能 力 ， 即 可 能 发 生 过 拟 合 现象 . 我 们 需要 对 已 生成 的 树 
自 下 而 上 进行 剪 枝 ， 将 树 变 得 更 简单 ， 从 而 使 它 具 有 更 好 的 泛 化 能 力 ， 具体 地 ， 
就 是 去 掉 过 于 细 分 的 叶 结 点 ， 使 其 回 退 到 父 结 点 ， 甚 至 更 高 的 结 点 ， 然 后 将 父 结 
点 或 更 高 的 结 点 改 为 新 的 叶 结 点 . 

如 果 特征 数量 很 多 ， 也 可 以 在 决策 树 学 习 开 始 的 时 候 ， 对 特征 进行 选择 ， 只 
留 下 对 训练 数据 有 足够 分 类 能 力 的 特征 

可 以 看 出 ,， 决 策 树 学 习 算 法 包含 特征 选择 、 决 策 树 的 生成 与 决策 树 的 剪 枝 过 
程 . 由 于 决策 树 表示 一 个 条 件 概率 分 布 , 所 以 深浅 不 同 的 决策 树 对 应 着 不 同 复杂 度 
的 概率 模型 . 决策 树 的 生成 对 应 于 模型 的 局 部 选择 , 决策 树 的 剪 枝 对 应 于 模型 的 全 
局 选择 , 决策 树 的 生成 只 考虑 局 部 最 优 , 相对 地 , 决策 树 的 前 枝 则 考虑 全 局 最 优 . 

决策 树 学 习 常用 的 算法 有 ID3、C4.5 与 CART， 下 面 结 合 这 些 算法 分 别 叙述 
决策 树 学 习 的 特征 选择 、 决 策 树 的 生成 和 能 枝 过 程 . 


5.2 特征 选择 
5.2.1 特征 选择 问题 


特征 选择 在 于 选取 对 训练 数据 具有 分 类 能 力 的 特征 . 这 样 可 以 提高 决策 树 学 
习 的 效率 ， 如果 利 用 一 个 特征 进行 分 类 的 结果 与 随机 分 类 的 结果 没有 很 大 差别 ， 
则 称 这 个 特征 是 没有 分 类 能 力 的 . 经 验 上 扔 掉 这 样 的 特征 对 决策 树 学 习 的 精度 影 
响 不 大 . 通常 特征 选择 的 准则 是 信息 增益 或 信息 增益 比 . 

首先 通过 一 个 例子 来 说 明 特 征 选 择 问 题 . 

例 5.1” 表 5.1 是 一 个 由 15 个 样本 组 成 的 贷款 申请 训练 数据 .数据 包括 贷款 
申请 人 的 4 个 特征 《属性 ): 第 1 个 特征 是 年 龄 ， 有 3 个 可 能 值 ， 青 年 ， 中 年 ， 老 
年 ; 第 2 个 特征 是 有 工作 ， 有 2 个 可 能 值 : 是 , 否 ; 第 3 个 特征 是 有 自己 的 房子 ， 
有 2 个 可 能 值 : 是 ， 否 ; 第 4 个 特征 是 信贷 情况 ， 有 3 个 可 能 值 ; 非常 好 ， 好 ， 一 
般 . 表 的 最 后 一 列 是 类 别 ， 是 否 同意 贷款 ， 取 2 个 值 ， 是 ， 否 . 





@@ 此 例 取 自 参考 文献 [3]. 
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表 5.1 贷款 申请 样本 数据 表 





ID 年 龄 有 工作 有 自己 的 房子 信贷 情况 类 别 
1 青年 否 否 一 般 否 
2 青年 否 否 、 好 和 否 
3 青年 是 否 好 是 
4 青年 是 是 一 般 是 
5 青年 否 否 一 般 否 
6 中 年 否 否 一 般 否 
3 中 年 否 否 好 否 
8 中 年 是 是 好 是 
9 中 年 否 是 非常 好 是 
10 中 年 否 是 非常 好 是 
1 老年 否 是 非常 好 是 
12 老年 否 是 好 是 
13 老年 是 否 好 是 
14 老年 是 否 非常 好 是 
15 老年 否 否 一 般 否 





希望 通过 所 给 的 训练 数据 学 习 一 个 贷款 申请 的 决策 树 , 用 以 对 未 来 的 贷款 申 
请 进行 分 类 ， 即 当 新 的 客户 提出 贷款 申请 时 ,根据 申 请 人 的 特征 利用 决策 树 决定 
是 否 批准 贷款 申请 . 中 

特征 选择 是 决定 用 哪个 特征 来 划分 特征 空间 . 

图 5.3 表示 从 表 5.1 数据 学 习 到 的 两 个 可 能 的 决策 树 ， 分 别 由 两 个 不 同 特征 
的 根 结 点 构成 . 图 5.3 〈a) 所 示 的 根 结 点 的 特征 是 年 龄 ， 有 3 个 取 值 ， 对 应 于 不 同 
的 取 值 有 不 同 的 子 结 点 . 图 5.3 (b) 所 示 的 根 结 点 的 特征 是 有 工作 ,有 2 个 取 值 ， 
对 应 于 不 同 的 取 值 有 不 同 的 子 结 点 .两 个 决策 树 都 可 以 从 此 延续 下 去 .问题 是 ; 
究竟 选择 哪个 特征 更 好 些 ? 这 就 要 求 确定 选择 特征 的 准则 ， 直 观 上 ， 如 果 一 个 特 
征 具 有 更 好 的 分 类 能 力 ， 或 者 说 ， 按 照 这 一 特征 将 训练 数据 集 分 割 成 子 集 ， 使 得 
各 个 子 集 在 当前 条 件 下 有 最 好 的 分 类 ， 那 么 就 更 应 该 选择 这 个 特征 .信息 增益 
(information gain》 就 能 够 很 好 地 表示 这 一 直观 的 准则 . 


年 龄 有 工作 


(a) (b) 
图 5.3 不 同 特征 决定 的 不 同 决策 树 
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5.2.2 ”信息 增益 


为 了 便于 说 明 ， 先 给 出 炉 与 条 件 炉 的 定义 . 
在 信息 论 与 概率 统计 中 ， 粹 (entropy) 是 表示 随机 变量 不 确定 性 的 度量 . 设 
X 是 一 个 取 有 限 个 值 的 离散 随机 变量 ， 其 概率 分 布 为 


P(X=%)=p,, i=1,2,,n 

则 随机 变量 针 的 炳 定义 为 
400= 交 Pilogp, (5.1) 
在 式 (5.1) 中 ,车 p, =0， 则 定义 0lo0g0=0 . 通常 ， 式 (5.1) 中 的 对 数 以 2 为 底 或 


以 e 为 底 〈 自 然 对 数 )， 这 时 业 的 单位 分 别称 作 比 特 〈bit) 或 纳 特 Cnat)， 由 定义 可 
知 ， 炳 只 依赖 于 半 的 分 布 ， 而 与 元 的 取 值 无 关 ， 所 以 也 可 将 北 的 炳 记 作 及 (p)， 即 


H(p)=-Yplogp, (2) 
i=1 
业 越 大 ， 随 机 变量 的 不 确定 性 就 越 大 .从 定义 可 验证 
0<H(p)<1logn (5.3) 


当 随 机 变量 只 取 两 个 值 ， 例 如 1，0 时 ， 即 天 的 分 布 为 
P(X=D)=p, P(X=0)=1-p, 0<p<1 
炉 为 
H(p)=~plog, p—(l— p)log,(l— p) (5.4) 


这 时 ， 糯 矿 (p) 随 概率 p 变化 的 曲线 如 图 5.4 所 示 单位 为 比特 ). 





图 5.4 分 布 为 贝 努 利 分 布 时 箭 与 概率 的 关系 


当 忆 =0 或 p=1 时 五 (pD)=0， 随 机 变量 完全 没有 不 确定 性 . 当 p=0.5 时 ， 
态 (p) =1， 灶 取 值 最 大 ， 随 机 变量 不 确定 性 最 大 . 
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设 有 随机 变量 (X,Y) ， 其 联合 概率 分 布 为 
P(X=N,7=7)=py» i=b2,n; 了 2 
条 件 烂 五 (Y | 子 ) 表示 在 已 知 随机 变量 XX 的 条 件 下 随机 变量 Y 的 不 确定 性 . 随机 变 
量 半 给 定 的 条 件 下 随机 变量 7 的 条 件 粹 (conditional entropy) (7 |X)， 定 义 为 
卫 给 定 条 件 下 了 的 条 件 概 率 分 布 的 烂 对 X 的 数学 期 望 


HOIX)=D pHOYIY=) (55) 


这 里 ，p,=P(X=x), i=1,2,…,n. 

当 粹 和 条 件 烂 中 的 概率 由 数据 估计 (特别 是 极 大 似 然 估计 〉 得 到 时 ， 所 对 应 
的 烂 与 条 件 烂 分 别称 为 经 验 入 (empirical entropy〉 和 经 验 条 件 业 〈(empirical 
conditional entropy)， 此 时 ， 如 果 有 0 概率 ， 令 0log0=0 . 

信息 增益 (information gain) 表示 得 知 特征 无 的 信息 而 使 得 类 了 的 信息 的 不 
确定 性 减少 的 程度 ， 

定义 5.2〈 信 息 增益 ) 特征 4 对 训练 数据 集 轧 的 信息 增益 g(D,4) ， 定 义 为 
集合 DD 的 经 验 烂 甩 (D) 与 特征 4 给 定 条 件 下 DD 的 经 验 条 件 业 肪 (D|4) 之 差 ， 即 

&(D,A)=H(D)- H(D|A) (5.6) 


一 般 地 , 业 及 (7) 与 条 件 业 玉 (Y|X) 之 差 称 为 互信 息 (mutual information). 决 
策 树 学 习 中 的 信息 增益 等 价 于 训练 数据 集中 类 与 特征 的 互信 息 . 

决策 树 学 习 应 用 信息 增益 准则 选择 特征 . 给 定 训练 数据 集 乙 和 特征 4， 经验 
烂 及 (D) 表示 对 数据 集 帮 进行 分 类 的 不 确定 性 . 而 经 验 条件 炳 瑟 (D| 4) 表示 在 特 
征 4 给 定 的 条 件 下 对 数据 集 忆 进行 分 类 的 不 确定 性 . 那么 它们 的 差 , 即 信息 增益 ， 
就 表示 由 于 特征 4 而 使 得 对 数据 集 DD 的 分 类 的 不 确定 性 减少 的 程度 . 显然 , 对 于 
数据 集 忆 而 言 ， 信 息 增 益 依赖 于 特征 ， 不 同 的 特征 往往 具有 不 同 的 信息 增益 信 
息 增益 大 的 特征 具有 更 强 的 分 类 能 力 . 

根据 信息 增益 准则 的 特征 选择 方法 是 : 对 训练 数据 集 (或 子 集 ) D， 计 算 其 
每 个 特征 的 信息 增益 ， 并 比较 它们 的 大 小 ， 选 择 信息 增益 最 大 的 特征 ， 

设 训练 数据 集 为 D ，| D | 表示 其 样本 容量 ， 即 样本 个 数 . 设 有 KK 个 类 C,，k= 


1,2,…, 尺 ，1C | 为 属于 类 C, 的 样本 个 数 ， 光 |C; |=|D|. 设 特征 4 及 个 不 同 的 
k= 
取 值 {4,0,,…,a,}， 根据 特征 4 的 取 值 将 思 划 分 为 n 个 子 集 思 ,D,,…,D, ,| DD | 为 
DD 的 样本 个 数 ,1D,1=|D|， 记 子 集 帮 中 属于 类 C, 的 样本 的 集合 为 D, ， 即 
i=l 
六 = 已 Ce，1Du | 为 D, 的 样本 个 数 ， 于 是 信息 增益 的 算法 如 下 : 
算法 $.1〈 信 息 增 益 的 算法 ) 
输入 : 训练 数据 集 轧 和 特征 4; 
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输出 : 特征 4 对 训练 数据 集 刀 的 信息 增益 g(D,4) . 
(1) 计算 数据 集 刀 的 经 验 炉 HD) 
,| Gl 


lIGliog IGl 5.7 
H(D)= Dp 2 lo 82 | (5.7) 
(2) 计算 特征 4 对 数据 集 思 的 经 验 条 件 粹 HH(D| 4) 


D, 
ER 2 DT i 





(5.8) 








1 | 


(3) 计算 信息 增益 

8(D,A4)=H(D)-H(D|A) (5.9) a 
例 5.2 对 表 5.1 所 给 的 训练 数据 集 D ， 根 据 信息 增 益 准 则 选择 最 优 特征 . 
解 首先 计算 经 验 炉 Ws 


H(D)= 训 log, 宫 6 Eiog, 5 


15 15 1 
| 人 分 别 以 4， 隶 ，44，4, 表 示 年 龄 、 
有 工作 、 有 自己 的 房子 和 信贷 情况 4 个 特征 ， 则 
(1) 


s(D,4)-H(D)-| 言 ER)+15 HD)+ 襄 总 ao] 


51 2 3 3 洒 
=0.971-| 二 | -2iog ,2_32iog 3 
攻 5 "B53 5 3] 


=0.971 
5 


+ -os 了 2 3): (to -30,3)| 
ee 3 和 3 上 5 
=0.971—0.888=0.083 
这 里 D，D, ，DD, 分 别 是 思 中 4( 年 龄 ) 取 值 为 青年 、 中 年 和 老年 的 样本 子 集 . 类 
似 地 ， 
(2) 
8&8(D,4)=H(D)- 舍 HD+ 8 


5 10/ 4 6， 6 
=0971-| 二 xo+ 了 -41 1 =0324 
区 8(- 10 og: 10 10 "号 二 | 





(3 


9 可 3 6 6 
D, 0.97 0 一 1 二 一 一 了 一 
g(D,4)=0971- | 多 + 中 - 31og,3 S18,§)| 


=0.971-0.551=0.420 
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(4) 
g(D, 4,)=0.971—0.608=0.363 


最 后 ， 比 较 各 特征 的 信息 增益 值 . 由 于 特征 44 《有 自己 的 房子 ) 的 信息 增益 
值 最 大 ， 所 以 选择 特征 4 作为 最 优 特征 . mn 


5.2.3 ”信息 增益 比 


信息 增益 值 的 大 小 是 相对 于 训练 数据 集 而 言 的 ， 并 没有 绝对 意义 . 在 分 类 问 
题 困难 时 , 也 就 是 说 在 训练 数据 集 的 经 验 烂 大 的 时 候 , 信息 增益 值 会 偏 大 . 反之 ， 
信息 增益 值 会 偏 小 .使 用 信息 增益 比 〈information gain ratio) 可 以 对 这 一 问题 进 
行 校正 .这 是 特征 选择 的 另 一 准则 . 

定义 5.3( 信 息 增益 比 ) 特征 4 对 训练 数据 集 DD 的 信息 增益 比 gn(D,4) 定义 
为 其 信息 增益 g(D,4) 与 训练 数据 集 思 的 经 验 粹 及 (D) 之 比 : 


8(D,4) 
gr(D,A)= HD) (5.10) 


5.3 决策 树 的 生成 


本 节 将 介绍 决策 树 学 习 的 生成 算法 . 首先 介绍 ID3 的 生成 算法 ， 然 后 再 介绍 
C4.5 中 的 生成 算法 ， 这些 都 是 决策 树 学 习 的 经 典 算法 . 


5.3.1 ID3 算法 


ID3 算法 的 核心 是 在 决策 树 各 个 结 点 上 应 用 信息 增益 准则 选择 特征 ， 递 归 地 
构建 决策 树 ， 具 体 方法 是 :从 根 结 点 〈root node) 开始 ， 对 结 点 计算 所 有 可 能 的 
特征 的 信息 增益 ， 选 择 信息 增益 最 大 的 特征 作为 结 点 的 特征 ， 由 该 特征 的 不 同 取 
值 建立 子 结 点 ;再 对 子 结 点 递归 地 调用 以 上 方法 ， 构 建 决 策 树 ; 直到 所 有 特征 的 
信息 增益 均 很 小 或 没有 特征 可 以 选择 为 止 ， 最 后 得 到 一 个 决策 树 ， ID3 相当 于 用 
极 大 似 然 法 进行 概率 模型 的 选择 . 

算法 5.2 (ID3 算法 ) 

输入 : 训练 数据 集 D， 特 征集 4 ， 阔 值 E; 

输出 ， 决策 树 了 

(1) 车 妃 中 所 有 实例 属于 同一 类 C; ， 则 7 为 单 结 点 树 ， 并 将 类 C, 作为 该 结 
点 的 类 标记 ， 返 回 7， 

(2) 若 4= 纪 ， 则 7 为 单 结 点 树 ， 并 将 万 中 实例 数 最 大 的 类 C, 作为 该 结 点 的 
类 标记 ， 返 回 7， 
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(3) 否则 ， 按 算法 5.1 计算 4 中 各 特征 对 DD 的 信息 增益 ， 选 择 信息 增益 最 大 
的 特征 4,; 
(4) 如 果 4 的 信息 增益 小 于 阔 值 =， 则 置 7 为 单 结 点 树 ， 并 将 中 实例 数 最 
大 的 类 C, 作为 该 结 点 的 类 标记 ， 返 回 7; 
(5) 否则 ， 对 4, 的 每 一 可 能 值 a,， 依 4, = 忆 将 忆 分 割 为 若干 非 空子 集 忆 ， 将 
DD 中 实例 数 最 大 的 类 作为 标记 ,构建 子 结 点 ， 由 结 点 及 其 子 结 点 构成 树 7 返回 7 
(6) 对 第 i 个 子 结 点 ， 以 DD, 为 训练 集 ， 以 4 一 {4,} 为 特征 集 ， 递 归 地 调用 
步 (1) ~ 步 (5)， 得 到 子 树 ， 返 回 T. a 
例 $.3 对 表 5.1 的 训练 数据 集 ， 利 用 ID3 算法 建立 决策 树 . 
解 ” 利 用 例 5.2 的 结果 ， 由 于 特征 4, (有 自己 的 房子 ) 的 信息 增益 值 最 大 ， 所 
以 选择 特征 4 作为 根 结 点 的 特征 . 它 将 训练 数据 集 轧 划分 为 两 个 子 集 D，( 4, 取 
值 为 “是 ”) 和 D,，( 4 取 值 为 “ 否 ”)， 由 于 DD 只 有 同一 类 的 样本 点 ， 所 以 它 成 
为 一 个 叶 结 点 ， 结 点 的 类 标记 为 “是 ”. 
对 也 则 需 从 特征 4 (年 龄 )， 少 (有 工作 ) 和 4, 信贷 情况 ) 中 选择 新 的 特 
征 , 计算 各 个 特征 的 信息 增益 : 
g(D;,A4)=H(D,)-H(D,| 4)=0.918—0.667=0.251 
8(D,,4,)=H(D,)— H(D, | 4)=0.918 
8(D,,4.)=H(D,)-H(D, |A,)=0.474 
选择 信息 增益 最 大 的 特征 4,( 有 工作 〉 作 为 结 点 的 特征 .由 于 4, 有 两 个 可 能 取 
值 ， 从 这 一 结 点 引出 两 个 子 结 点 : 一 个 对 应 “是 ”( 有 工作 ) 的 子 结 点 ， 包 含 3 
个 样本 ， 它 们 属于 同一 类 ， 所 以 这 是 一 个 叶 结 点 ， 类 标记 为 “是 ” 另 一 个 是 对 
应 “和 否 ”( 无 工作 ) 的 子 结 点 ， 包 含 6 个 样本 ， 它 们 也 属于 同一 类 ， 所 以 这 也 是 
一 个 叶 结 点 ， 类 标记 为 “ 否 ”. 
这 样 生成 一 个 如 图 5.5 所 示 的 决策 树 。 该 决策 树 只 用 了 两 个 特征 (有 两 个 内 
部 结 点 ). 中 
有 自己 的 房子 








是 否 
图 5.5 决策 树 的 生成 
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ID3 算法 只 有 树 的 生成 ， 所 以 该 算法 生成 的 树 容易 产生 过 拟 合 . 


5.3.2 ”C4.5 的 生成 算法 


C4.5 算法 与 ID3 算法 相似 ，C4.5 算法 对 ID3 算法 进行 了 改进 ，C4.5 在 生成 
的 过 程 中 ， 用 信息 增益 比 来 选择 特征 ， 

算法 53〈C4.5 的 生成 算法 ) 

输入 : 训练 数据 集 D ， 特 征集 4 ， 阔 值 e; 

输出 ， 决 策 树 7. 

(1) 如 果 妃 中 所 有 实例 属于 同一 类 C,， 则 置 7 为 单 结 点 树 ， 并 将 Cx 作为 该 
结 点 的 类 ， 返 回 7 ; 

《2) 如 果 4= 名 ， 则 置 7 为 单 结 点 树 ， 并 将 DD 中 实例 数 最 大 的 类 C, 作为 该 结 
点 的 类 ， 返 回 7; 

(3) 否则 ， 按 式 (5.10) 计 算 4 中 各 特征 对 DD 的 信息 增益 比 ， 选 择 信息 增 益 比 
最 大 的 特征 4,; , 

(4) 如 果 4, 的 信息 增益 比 小 于 六 值 e， 则 置 7 为 单 结 点 树 , 并 将 D 中 实例 数 
最 大 的 类 C, 作为 该 结 点 的 类 ， 返 回 7; 

(5) 否则 ,对 4 的 每 一 可 能 值 w， 依 4, = a 将 DD 分 割 为 子 集 若干 非 空 DD， 将 
乙 中 实例 数 最 大 的 类 作为 标记 , 构建 子 结 点 , 由 结 点 及 其 子 结 点 构成 树 7, 返回 用 

(6) 对 结 点 i， 以 DD 为 训练 集 ， 以 4 一 {4,} 为 特征 集 ， 递 归 地 调用 步 (0) 一 步 (3)， 
得 到 子 树 也 ， 返 回 也. a 


5.4 ”决策 树 的 前 枝 


决策 树 生成 算法 递归 地 产生 决策 树 ， 直 到 不 能 继续 下 去 为 止 .这 样 产 生 的 树 
往往 对 训练 数据 的 分 类 很 准确 ， 但 对 未 知 的 测试 数据 的 分 类 却 没有 那么 准确 ， 即 
出 现 过 拟 合 现象 . 过 拟 合 的 原因 在 于 学 习 时 过 多 地 考虑 如 何 提高 对 训练 数据 的 正 
确 分 类 ， 从 而 构建 出 过 于 复杂 的 决策 树 . 解决 这 个 问题 的 办 法 是 考虑 决策 树 的 复 
杂 度 ， 对 已 生成 的 决策 树 进行 简化 . 

在 决策 树 学 习 中 将 已 生成 的 树 进行 简化 的 过 程 称 为 剪 枝 (pruning). 具体 地 ， 
前 枝 从 已 生成 的 树 上 裁 掉 一 些 子 树 或 叶 结 点 ， 并 将 其 根 结 点 或 父 结 点 作为 新 的 叶 
结 点 ， 从 而 简化 分 类 树 模型 . 

本 节 介 绍 一 种 简单 的 决策 树 学 习 的 前 枝 算法 . 

决策 树 的 剪 枝 往往 通过 极 小 化 决策 树 整 体 的 损失 函数 (loss function) 或 代价 
函数 〈cost function》 来 实现 . 设 树 了 的 叶 结 点 个 数 为 |T|，1 是 树 T 的 叶 结 点 ， 该 
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叶 结 点 有 N, 个 样本 点 ， 其 中 大 类 的 样本 点 有 Na 个 ，k=1,2,…, 下 ，H,(T) 为 叶 结 
点 5 上 的 经 验 粒 ，w 关 0 为 参数 ， 则 决策 树 学 习 的 损失 函数 可 以 定义 为 


CDT NA +alT) (5.11) 
1=] 
其 中 经 验 炳 为 


Na 
~ 


在 损失 函数 中 ， 将 式 (5.11) 右 端的 第 1 项 记 作 


六-=- 卫 站 Na ls (5.12) 


ul J 
cEnamn= EN, 局 (5.13) 
=] ‘=l k=I 


这 时 有 
Ca(T)=C(T) + olT| (5.14) 


式 (5.14) 中 ，C(T) 表示 模型 对 训练 数据 的 预测 误差 ， 即 模型 与 训练 数据 的 拟 合 程 
度 ，|7 | 表示 模型 复杂 度 ， 参 数 @ > 0 控制 两 者 之 间 的 影响 ， 较 大 的 w 促使 选择 较 
简单 的 模型 《 树 )， 较 小 的 x 促使 选择 较 复 杂 的 模型 〈 树 )，cw= 0 意味 着 只 考虑 
模型 与 训练 数据 的 拟 合 程度 ， 不 考虑 模型 的 复杂 度 . 

剪 枝 ， 就 是 当 w 确 定时 ， 选 择 损失 函数 最 小 的 模型 ， 即 损失 函数 最 小 的 子 

. 当 w 值 确定 时 ， 子 树 越 大 ， 往 往 与 训练 数据 的 拟 合 越 好 ， 但 是 模型 的 复杂 度 
Wi 相反 ， 子 树 越 小 ， 模 型 的 复杂 度 就 越 低 ， 但 是 往往 与 训练 数据 的 拟 合 不 
好 .损失 函数 正好 表示 了 对 两 者 的 平衡 . 

可 以 看 出 ， 决 策 树 生成 只 考虑 了 通过 提高 信息 增益 或 信息 增益 比 ) 对 训练 
数据 进行 更 好 的 拟 合 .而 决策 树 剪 枝 通 过 优化 损失 函数 还 考虑 了 减 小 模型 复杂 
度 . 决策 树 生成 学 习 局 部 的 模型 ， 而 决策 树 剪 枝 学 习 整 体 的 模型 . 

式 (5.11) 或 式 (5.14) 定义 的 损失 函数 的 极 小 化 等 价 于 正则 化 的 极 大 似 然 估 
计 . 所 以 ， 利 用 损失 函数 最 小 原则 进行 剪 枝 就 是 用 正则 化 的 极 大 似 然 估计 进行 模 
型 选择 . 

图 5.6 是 决策 树 剪 枝 过 程 的 示意 图 ， 下面 介绍 剪 枝 算法 . 

算法 5.4〔 树 的 剪 枝 算 法 ) 

输入 : 生成 算法 产生 的 整个 树 了 7， 参数 wx 

输出 : 修剪 后 的 子 树 刀 . 

(1) 计算 每 个 结 点 的 经 验 粹 . 

(2) 递归 地 从 树 的 叶 结 点 向 上 回 缩 . 
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如 果子 树 的 损失 函数 更 小 


| 得 到 子 树 


图 5.6 ”决策 树 的 剪 枝 


设 一 组 叶 结 点 回 缩 到 其 父 结 点 之 前 与 之 后 的 整体 树 分 别 为 2 与 7 ， 其 对 应 
的 损失 函数 值 分 别 是 C,(7) 与 C,(T,)， 如 果 


Ca(T1) < CalTs) (5.15) 
则 进行 剪 枝 ， 即 将 父 结 点 变 为 新 的 叶 结 点 . 
(3) 返回 (2)， 直 至 不 能 继续 为 止 ， 得 到 损失 函数 最 小 的 子 树 民 . 本 


注意 , 式 (5.15) 只 需 考 虑 两 个 树 的 损失 函数 的 差 , 其 计算 可 以 在 局 部 进行 . 所 
以 ， 决 策 树 的 剪 枝 算法 可 以 由 一 种 动态 规划 的 算法 实现 类似 的 动态 规划 算法 可 
参见 文献 [10]. 


5.5 CART 算法 


分 类 与 回归 树 (classification and regression tree，CART) 模型 由 Breiman 等 
人 在 1984 年 提出 ， 是 应 用 广泛 的 决策 树 学 习 方法 .CART 同样 由 特征 选择 、 树 
的 生成 及 剪 枝 组 成 ， 既 可 以 用 于 分 类 也 可 以 用 于 回归 . 以 下 将 用 于 分 类 与 回归 的 
树 统称 为 决策 树 . 

CART 是 在 给 定 输入 随机 变量 条 件 下 输出 随机 变量 了 的 条 件 概 率 分 布 的 
学 习 方法 .CART 假设 决策 树 是 二 叉 树 ， 内 部 结 点 特征 的 取 值 为 “是 ”和 “ 否 ”， 左 
分 支 是 取 值 为 “是 ”的 分 支 ， 右 分 支 是 取 值 为 “ 否 ” 的 分 支 . 这 样 的 决策 树 等 价 于 
递归 地 二 分 每 个 特征 ， 将 输入 空间 即 特征 空间 划分 为 有 限 个 单元 ， 并 在 这 些 单 元 
上 确定 预测 的 概率 分 布 ， 也 就 是 在 输入 给 定 的 条 件 下 输出 的 条 件 概率 分 布 . 

CART 算法 由 以 下 两 步 组 成 : 

(1) 决策 树 生 成 : 基于 训练 数据 集 生成 决策 树 ， 生 成 的 决策 树 要 尽量 大 ， 
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(2) 决策 树 剪 枝 : 用 验证 数据 集 对 已 生成 的 树 进行 剪 枝 并 选择 最 优 子 树 ， 这 
时 用 损失 函数 最 小 作为 剪 枝 的 标准 . 


5.5.1 CART 生成 
决策 树 的 生成 就 是 递归 地 构建 二 叉 决策 树 的 过 程 .对 回归 树 用 平方 误差 最 小 化 
准则 ,， 对 分 类 树 用 基尼 指数 (Gini index) 最 小 化 准则 , 进行 特征 选择 ,生成 二 叉 树 . 
1， 回 归 树 的 生成 
假设 X 与 7 分 别 为 输入 和 输出 变量 ， 并 且 Y 是 连续 变量 ， 给 定 训练 数据 集 


D={05,7),%, ,xys pw)} 
考虑 如 何 生成 回归 树 . 
一 个 回归 树 对 应 着 输入 空间 ( 即 特征 空间 ) 的 一 个 划分 以 及 在 划分 的 单元 上 
的 输出 值 .假设 已 将 输入 空间 划分 为 M 个 单元 RR,R,…,Ry ,并 且 在 每 个 单元 R, 上 
有 一 个 固定 的 输出 值 c, ， 于 是 回归 树 模 型 可 表示 为 


7CD= Voltxe R,) (5.16) 
当 输 入 空间 的 划分 确定 时 , 可 以 用 平方 误差 》 (% -了 (%,)》 来 表示 回归 树 对 


于 训练 数据 的 预测 误差 ， 用 平方 误差 最 小 的 准则 求解 每 个 单元 上 的 最 优 输出 
值 . 易 知 , 单元 R, 上 的 6c。 的 最 优 值 6, 是 R, 上 的 所 有 输入 实例 x 对 应 的 输出 yy 的 
均值 ， 即 

6, =ave(y, |x,e R,) (5.17) 


问题 是 怎样 对 输入 空间 进行 划分 .这 里 采用 启发 式 的 方法 ， 选 择 第 j 个 变量 
x 中 和 它 取 的 值 s， 作 为 切 分 变量 (splitting variable) 和 切 分 点 (splitting point)， 
并 定义 两 个 区 域 : 


及 (= 人 zz sy 和 RO,s)={x|x) >s} (5.18) 
然后 寻找 最 优 切 分 变量 ;和 最 优 切 分 点 s ， 具体 地 ， 求 解 


le 2 0-c7+min 3 oo | (5.19) 
"LL ® seRUs) seRUs) 
对 固定 输入 变量 /可 以 找到 最 优 切 分 点 s. 

A=avey lie Rs) 和 =avey, ln eR,s)) (5.20) 


遍历 所 有 输入 变量 ,找到 最 优 的 切 分 变量 j ,构成 一 个 对 (j,s) . 依 此 将 输入 空间 
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划分 为 两 个 区 域 . 接着 ， 对 每 个 区 域 重复 上 述 划 分 过 程 ， 直 到 满足 停止 条 件 为 
止 . 这 样 就 生成 一 棵 回归 树 . 这 样 的 回归 树 通常 称 为 最 小 二 乘 回 归 树 (least squares 
regression tree)， 现 将 算法 叙述 如 下 ; 

算法 $5.S《〈 最 小 二 乘 回 归 树 生成 算法 ) 

输入 : 训练 数据 集 忆 ; 

输出 回归 树 f(x) . 

在 训练 数据 集 所 在 的 输入 空间 中 ,递归 地 将 每 个 区 域 划分 为 两 个 子 区 域 并 决 
定 每 个 子 区 域 上 的 输出 值 ， 构 建 二 又 决策 树 : 

(1) 选择 最 优 切 分 变量 jj 与 切 分 点 s ， 求 解 








wren > -a +min 3 oe | (5.21) 
| a xenUs) aa) 
遍历 变量 / ， 对 固定 的 切 分 变量 7 扫描 切 分 点 * ， 选 择 使 式 (5.21) 达到 最 小 


值 的 对 (j,s) . 
(2) 用 选 定 的 对 (j,s) 划分 区 域 并 决定 相应 的 输出 值 : 
Rs)={x|x ?<s}, Rs)={x|x" >s} 
i CE 
& = 六 7” ， XER,, m=1,2 
(3) 继续 对 两 个 子 区 域 调 用 步骤 (0)，(2)， 直 至 满足 停止 条 件 ， 
(4) 将 输入 空间 划分 为 M 个 区域 尺 ,RR,，',Rv ， 生 成 决策 树 ， 


/0 = 六 tl(xe R,) 图 





2， 分 类 树 的 生成 


分 类 树 用 基尼 指数 选择 最 优 特征 ， 同 时 决定 该 特征 的 最 优 二 值 切 分 点 . 
定义 5.4 (基尼 指数 ) “分 类 问题 中 ,假设 有 天 个 类 ， 样 本 点 属于 第 上 类 的 概 
率 为 p: ， 则 概率 分 布 的 基尼 指数 定义 为 














天 大 
Gini(p) = EP (1-pi)=1- > p? (5.22) 

5 名 
对 于 二 类 分 类 问题 ， 若 样本 点 属于 第 1 个 类 的 概率 是 p ， 则 概率 分 布 的 基尼 指数 为 
Gini(p)= 2p(-~ 门 (5.23) 

对 于 给 定 的 样本 集合 D ， 其 基尼 指数 为 
a 
Gini(D) =1 -二 (5.24) 
k=] 1DI 


这 里 ，C 是 刀 中 属于 第 丰 类 的 样本 子 集 ， 天 是 类 的 个 数 ， 
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如 果 样本 集合 DD 根据 特征 4 是 否 取 茶 一 可 能 值 a 被 分 割 成 D, 和 D, 两 部 分 , 即 
D={(e DIAW=q), D,=D-D, 


则 在 特征 4 的 条 件 下 ,集合 D 的 基尼 指数 定义 为 
ed In 加 
Gini(D, A) = Gini(D)+ 王 2 Gini(D,) (5.25) 
网 加 
基尼 指数 Gini(D) 表示 集合 D 的 不 确定 性 , 基尼 指数 Gini(D, 4) 表示 经 4= a 分 割 
后 集合 DD 的 不 确定 性 . 基尼 指数 值 越 大 ， 样 本 集合 的 不 确定 性 也 就 越 大 ， 这 一 点 
与 粹 相似 . 
图 5.7 显示 二 类 分 类 问题 中 基尼 指数 Gini(p) 、 炳 (单位 比特 ) 之 半 浊 (p) 和 
分 类 误差 率 的 关系 . 横 坐 标 表示 概率 p ， 纵 坐标 表示 损失 . 可 以 看 出 基尼 指数 和 
业 之 半 的 曲线 很 接近 ， 都 可 以 近似 地 代表 分 类 误差 率 . 





0.0 02 0.4 0.6 0.8 1.0 
p 


图 5.7 二 类 分 类 中 基尼 指数 、 粹 之 半 和 分 类 误差 率 的 关系 


算法 5.6〈CART 生成 算法 

输入 : 训练 数据 集 D ， 停 止 计算 的 条 件 ; 

输出 ，CART 决策 树 . 

根据 训练 数据 集 ， 从 根 结 点 开始 ， 递 归 地 对 每 个 结 点 进行 以 下 操作 ， 构 建 二 
叉 决策 树 : 

(1) 设 结 点 的 训练 数据 集 为 D ,计算 现 有 特征 对 该 数据 集 的 基尼 指数 . 此 时 ， 
对 每 一 个 特征 4 ， 对 其 可 能 取 的 每 个 值 a， 根 据 样本 点 对 4=a 的 测试 为 “是 ”或 
“ 否 ” 将 DD 分 制 成 DD 和 ,两 部 分 ， 利用 式 (5.25) 计算 4=a 时 的 基尼 指数 . 

(2) 在 所 有 可 能 的 特征 4 以 及 它们 所 有 可 能 的 切 分 点 a 中， 选择 基尼 指数 最 
小 的 特征 及 其 对 应 的 切 分 点 作为 最 优 特征 与 最 优 切 分 点 . 依 最 优 特征 与 最 优 切 分 
点 ， 从 现 结 点 生成 两 个 子 结 点 ， 将 训练 数据 集 依 特征 分 配 到 两 个 子 结 点 中 去 . 
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(3) 对 两 个 子 结 点 递归 地 调用 (1)，(2)， 直 至 满足 停止 条 件 . 

(4) 生成 CART 决策 树 . 中 

算法 停止 计算 的 条 件 是 结 点 中 的 样本 个 数 小 于 预定 阔 值 ， 或 样本 集 的 基尼 指 
数 小 于 预定 阐 值 (样本 基本 属于 同一 类 )， 或 者 没有 更 多 特征 . 

例 5.4 根据 表 5.1 所 给 训练 数据 集 ， 应 用 CART 算法 生成 决策 树 . 

解 首先 计算 各 特征 的 基尼 指数 ， 选 择 最 优 特征 以 及 其 最 优 切 分 点 . 仍 采 用 
例 5.2 的 记号 ， 分 别 以 4， 少 ， 省 ， 勾 表示 年 龄 、 有 工作 、 有 自己 的 房子 和 信贷 
情况 4 个 特征 ， 并 以 1，2，3 表示 年 龄 的 值 为 青年 、 中 年 和 老年 ， 以 1，2 表示 
有 工作 和 有 自己 的 房子 的 值 为 是 和 否 ， 以 1，2，3 表示 信贷 情况 的 值 为 非常 好 、 好 
和 一 般 . 

求 特征 4 的 基尼 指数 : 


ini(D,4 =D=.|2x2xf|1-211+10f2x7xf1- 卫 
ainip,4=D- 吕 (2x3x( 引 引 2xax( 坟 )}- 0.44 


Gini(D, A =2)=0.48 
Gini(D, A =3)=0.44 
由 于 Gini(D,4 =D 和 Gini(D,4 =3) 相 等 ， 且 最 小 ， 所 以 4 =1 和 用 =3 都 可 
以 选 作 和 4 的 最 优 切 分 点 . 
求 特征 4 和 和 4 的 基尼 指数 : 
Gini(D, 4, =1)=0.32 
Gini(D,4, =1)=0.27 
由 于 少 和 省 只 有 一 个 切 分 点 ， 所 以 它们 就 是 最 优 切 分 点 . 
求 特征 4 的 基尼 指数 ; 





Gini(D, 4, =D=0.36 
Gini(D, A, =2)=0.47 
Gini(D,4 =3) =0.32 


Gini(D, 4 =3) 最 小 ， 所 以 4, =3 为 4, 的 最 优 切 分 点 . 
在 4， 隶 ， 丸 ， 和 4 几 个 特征 中 ，Gini(D, 4 =1)=0.27 最 小 ,所 以 选择 特征 4, 为 
最 优 特 征 , 4, =1 为 其 最 优 切 分 点 .于 是 根 结 点 生成 两 个 子 结 点 , 一 个 是 叶 结 点 .对 
另 一 个 结 点 继续 使 用 以 上 方法 在 4，4,，4, 中 选择 最 优 特征 及 其 最 优 切 分 点 ， 结 
果 是 4, =1. 依 此 计算 得 知 ， 所 得 结 点 都 是 叶 结 点 . 
对 于 本 问题 , 按照 CART 算法 所 生成 的 决策 树 与 按照 ID3 算法 所 生成 的 决策 
树 完全 一 致 . 
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5.5.2 CART 甬 枝 


CART 剪 枝 算法 从 “完全 生长 ”的 决策 树 的 底 端 剪 去 一 些 子 树 ， 使 决策 树 变 小 
(模型 变 简单 )， 从 而 能 够 对 未 知 数据 有 更 准确 的 预测 CART 剪 枝 算法 由 两 步 组 
成 : 首先 从 生成 算法 产生 的 决策 树 五 底 端 开 始 不 断 剪 枝 ， 直到 兄 的 根 结 点 ， 形 成 
一 个 子 树 序列 似 , 了 ,也 } ， 然后 通过 交叉 验证 法 在 独立 的 验证 数据 集 上 对 子 树 
序列 进行 测试 ， 从 中 选择 最 优 子 树 . 


1， 剪 枝 ， 形 成 一 个 子 树 序列 


在 剪 枝 过 程 中 ， 计 算 子 树 的 损失 函数 : 

Ca(T)=C(T)+olT| (5.26) 
其 中 ， 了 为 任意 子 树 ，C(T) 为 对 训练 数据 的 预测 误差 〈 如 基尼 指数 )，| 了 | 为 子 
树 的 叶 结 点 个 数 ，w > 0 为 参数 ， Cu(7) 为 参数 是 时 的 子 树 7 的 整体 损失 ， 参 
数 w 权衡 训练 数据 的 拟 合 程度 与 模型 的 复杂 度 , 

对 固定 的 w， 一定 存在 使 损失 函数 C,(7T) 最 小 的 子 树 , 将 其 表示 为 7 . XT, 在 
损失 函数 C,(7) 最 小 的 意义 下 是 最 优 的 .容易 验证 这 样 的 最 优 子 树 是 唯一 的 . 当 
0Q 大 的 时 候 ， 最 优 子 树 了 偏 小 ， 当 cx 小 的 时 候 ， 最 优 子 树 了 偏 大 ， 极 端 情况 ， 当 
c&=0 时 ， 整 体 树 是 最 优 的 ， 当 一 一 时 ， 根 结 点 组 成 的 单 结 点 树 是 最 优 的 . 

Breiman 等 人 证 明 : 可 以 用 递归 的 方法 对 树 进行 前 枝 ， 将 w 从 小 增 大 , 0= 
<0 <…<0<+e， 产 生 一 系列 的 区 间 [@,@w),i=0,1…,n ; 前 枝 得 到 的 子 树 
序列 对 应 着 区 间 we [@,Q,)，i=0,1…,n 的 最 优 子 树 序列 全 ,TT…,T}， 序 列 中 
的 子 树 是 媒 套 的 . 

具体 地 ， 从 整体 树 责 开始 剪 枝 ， 对 马 的 任意 内 部 结 点 :， 以 1 为 单 结 点 树 的 
损失 函数 是 

CO=CO+a (5.27) 


以 1 为 根 结 点 的 子 树 T 的 损失 函数 是 
Ca(T)=C(T)+olT| (5.28) 
当 g=0 及 充分 小 时 ， 有 不 等 式 
Co(T)< Cz(D) (5.29) 


当 @ 增 大 时 ， 在 某 一 g 有 
CT)= C0) (5.30) 


CO-cC 


当 再 增 大 时 ， 不 等 式 (5.29) 反 向 . 只 要 = a 与 + 有 相同 的 损 


失 函 数值 ， 而 z 的 结 点 少 ， 因 此 上 比 开 更 可 取 ， 对 也 进 行 剪 枝 . 
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为 此 ， 对 有 互 中 每 一 内 部 结 点 !， 计 算 
_cO-ceD 
sO nia 
它 表 示 剪 枝 后 整体 损失 函数 减少 的 程度 . 在 中 剪 去 g(?) 最 小 的 也， 将 得 到 的 子 
树 作 为 五 ， 同 时 将 最 小 的 g(t) 设 为 w .了 为 区 间 [w,ao) 的 最 优 子 树 . 
如 此 前 校 下 去 ， 直 至 得 到 根 结 点 ， 在 这 一 过 程 中 ， 不 断 地 增加 的 信 ， 产 生 
新 的 区 问 . 


2， 在 剪 枝 得 到 的 子 树 序列 元 ,,…,7, 中 通过 交叉 验证 选取 最 优 子 树 T 


具体 地 ， 利 用 独立 的 验证 数据 集 ， 测 试 子 树 序列 芽 ,区 …,T 中 各 棵 子 树 的 平 
方 误差 或 基尼 指数 . 平方 误差 或 基尼 指数 最 小 的 决策 树 被 认为 是 最 优 的 决策 
树 . 在 子 树 序列 中 ， 每 棵 子 树 厂 , 蕊 ,…,7 都 对 应 于 一 个 参数 ,0,,…,%, . 所 以 ， 当 
最 优 子 树 到 确定 时 ， 对 应 的 也 确定 了 ， 即 得 到 最 优 决策 树 7 . 

现在 写 出 CART 剪 枝 算法 . 

算法 5.7 (CART 前 枝 算法 ) 

输入 : CART 算法 生成 的 决策 树 聊 ; 

输出 ， 最 优 决策 树 T. 

(1) 设 t=0,， 了 T=. 

(2) 设 w<=+ee. 

(3) 自 下 而 上 地 对 各 内 部 结 点 上 计算 CC) ， 人 | 以 及 
_CO-CCD) 
Bi 

0=min(@, g(t) 

这 里 ， 表示 以 1 为 根 结 点 的 子 树 ，C(T) 是 对 训练 数据 的 预测 误差 ，|T| 是 工 的 
叶 结 点 个 数 . 

(4) 自 上 而 下 地 访问 内 部 结 点 :， 如 果 有 g(D) = w， 进 行 剪 枝 ， 并 对 叶 结 点 
以 多 数 表决 法 决定 其 类 ， 得 到 树 了 . 

(5) 设 k=k+l, 0 =, T=7T. 

(6) 如 果 了 不 是 由 根 结 点 单独 构成 的 树 ， 则 回 到 步骤 (4). 

〈7) 采用 交叉 验证 法 在 子 树 序列 歼 , 五 …, 世 中 选取 最 优 子 树 7 . 站 


本 章 概 要 


1. 分 类 决策 树 模型 是 表示 基于 特征 对 实例 进行 分 类 的 树 形 结构 .决策 树 可 
以 转换 成 一 个 还 then 规则 的 集合 , 也 可 以 看 作 是 定义 在 特征 空间 划分 上 的 类 的 条 


(5.31) 
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件 概 率 分 布 . 

2. 决策 树 学 习 则 在 构建 一 个 与 训练 数据 拟 合 很 好 ， 并 且 复 杂 度 小 的 决策 
树 。 因 为 从 可 能 的 决策 树 中 直接 选取 最 优 决 策 树 是 NP 完全 问题 .现实 中 采用 启 
发 式 方法 学 习 次 优 的 决策 树 . 

决策 树 学 习 算 法 包括 3 部 分 : 特征 选择 、 树 的 生成 和 树 的 剪 枝 ， 常 用 的 算法 
有 1ID3、C4.5 和 CART. 

3. 特征 选择 的 目的 在 于 选取 对 训练 数据 能 够 分 类 的 特征 . 特征 选择 的 关键 
是 其 准则 ， 常 用 的 准则 如 下 ; 

《1) 样本 集合 DD 对 特征 4 的 信息 增益 〈ID3》 

g(D,A)=H(D)- H(D|A) 
-$l liog 1C4 
HD) = DI ID 
= 部 12 
HDID=P DID) 
其 中 ， 五 (D) 是 数据 集 DD 的 业 ， 万 (D,) 是 数据 集 轧 ,的 米 ， 矿 (D| 4) 是 数据 集 忆 对 
特征 4 的 条 件 业 ， DD, 是 DD 中 特征 4 取 第 i 个 值 的 样本 子 集 ，C, 是 忆 中 属于 第 大 
类 的 样本 子 集 ，n 是 特征 4 取 值 的 个 数 ，K 是 类 的 个 数 . 
(2) 样本 集合 D 对 特征 4 的 信息 增益 比 (C4.5》 
-8&(D,4) 
gr(D, A)= HD 
其 中 ，g(D, 4) 是 信息 增益 ，H(D) 是 数据 集 DD 的 业 . 
(3) 样本 集合 D 的 基尼 指数 (CART) 


x 2 
Gini(D)=1-— 站 


天 =1 ID | 
特征 4 条 件 下 集合 DD 的 基尼 指数 : 


9 

Gini(D, A)= Pl 0 + Bl 0 
4. 决策 树 的 生成 .通常 使 用 信息 增益 最 大 、 信 息 增 益 比 最 大 或 基尼 指数 最 
小 作为 特征 选择 的 准则 . 决策 树 的 生成 往往 通过 计算 信息 增益 或 其 他 指标 ， 从 根 
结 点 开始 ， 递 归 地 产生 决策 树 . 这 相当 于 用 信息 增益 或 其 他 准则 不 断 地 选取 局 部 

最 优 的 特征 ， 或 将 训练 集 分 割 为 能 够 基本 正确 分 类 的 子 集 . 
5. 决策 树 的 剪 枝 . 由 于 生成 的 决策 树 存在 过 拟 合 问题 ， 需 要 对 它 进行 剪 枝 ， 以 
简化 学 到 的 决策 树 ， 决 策 树 的 剪 枝 ， 往 往 从 已 生成 的 树 上 剪 掉 一 些 叶 结 点 或 叶 结 
点 以 上 的 子 树 , 并 将 其 父 结 点 或 根 结 点 作为 新 的 叶 结 点 , 从 而 简化 生成 的 决策 树 . 
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继续 阅读 


介绍 决策 树 学 习 方 法 的 文献 很 多 ， 关 于 ID3 可 见 文献 [1]，C4.5 可 见 文献 [2]， 
CART 可 见 文献 [3, 4]. 决策 树 学 习 一 般 性 介绍 可 见 文献 [5 一 7]. 与 决策 树 类 似 的 
分 类 方法 还 有 决策 列表 (decision list)， 决 策 列表 与 决策 树 可 以 相互 转换 四 ， 决 策 
列表 的 学 习 方法 可 参见 文献 [9]. 





习 题 


5.1 根据 表 5.1 所 给 的 训练 数据 集 ， 利 用 信息 增益 比 〈C4.5 算法 ) 生成 决策 树 . 
5.2 已 知 如 表 5.2 所 示 的 训练 数据 ,试用 平方 误差 损失 准则 生成 一 个 二 又 回 归 树 . 


表 5.2 训练 数据 表 


| 








5.3 证 明 CART 藤 枝 算法 中 ， 当 确定 时 ， 存 在 唯一 的 最 小 子 树 T 使 损失 函数 
C.(7) 最 小 . 

5.4 证 明 CART 前 枝 算法 中 求 出 的 子 树 序列 也 ,五 …, 刀 } 分 别 是 区 间 we [&,@,) 
的 最 优 子 树 T,， 这 里 i=0,1…,n，0=0 <0 <…<0,<+te. 
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第 6 章 ”逻辑 斯 谤 回归 与 最 大 粹 模型 


逻辑 斯 说 回归 (logistic regression) 是 统计 学 习 中 的 经 典 分 类 方法 . 最 大 灶 是 
概率 模型 学 习 的 一 个 准则 , 将 其 推广 到 分 类 问题 得 到 最 大 焙 模型 (maximum entropy 
model). 逻辑 斯 谤 回归 模型 与 最 大 炳 模型 都 属于 对 数 线性 模型 .本 章 首先 介绍 逻 
辑 斯 谤 回归 模型 ， 然 后 介绍 最 大 米 模 型 ， 最 后 讲述 逻辑 斯 谤 回归 与 最 大 炳 模型 的 
学 习 算法 ， 包 括 改进 的 迭代 尺度 算法 和 拟 牛 顿 法 . 


6.1 逻辑 斯 谤 回归 模型 


6.1.1 逻辑 斯 说 分 布 


首先 介绍 逻辑 斯 谤 分 布 (logistic distribution). 
定义 61 (逻辑 斯 谤 分 布 ) 设 X 是 连续 随机 变量 ,XX 服从 多 辑 斯 谤 分 布 是 指 
区 具有 下 列 分 布 函数 和 密度 函数 : 


F(x)=P(X<x)= 





1 
tern Wa 


机 ererAY 
CO= 忆 (CD -rey 
式 中 ，/ 为 位 置 参数 ，y > 0 为 形状 参数 . 
逻辑 斯 详 分 布 的 密度 函数 /(x) 和 分 布 函数 F(x) 的 图 形 如 图 6.1 所 示 . 分 布 函 
数 属于 逻辑 斯 计 函 数 , 其 图 形 是 一 条 S 形 曲 线 (sigmoid curve). 该 直线 以 点 [ 4 


为 中 心 对 称 ， 即 满足 


(62) 





1 1 
FCx+/)-3= EC-AO+ 


线 在 中 心 附近 增长 速度 较 快 ， 在 两 端 增长 速度 较 慢 .形状 参数 y 的 值 越 小 ， 曲 
线 在 中 心 附近 增长 得 越 快 . 
f(x) F(x) 























时 x 


图 6.1 逻辑 斯 详 分 布 的 密度 函数 与 分 布 函数 
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6.1.2 二 项 远 辑 斯 谤 回归 模型 


二 项 逻辑 斯 谤 回归 模型 (binomial logistic regression model) 是 一 种 分 类 模型 ， 
由 条 件 概 率 分 布 P(Y|X) 表示 , 形式 为 参数 化 的 逻辑 斯 说 分 布 . 这 里 , 随机 变量 六 
取 值 为 实数 , 随机 变量 了 取 值 为 1 或 0. 我 们 通过 监督 学 习 的 方法 来 估计 模型 参数 . 

定义 6.2〈 逻 辑 斯 谤 回归 模型 ) 二 项 逻辑 斯 详 回 归 模型 是 如 下 的 条 件 概率 
分 布 : 








exp(w.x+b) 
l+exp(w.x+D) 
一 一 -> 

二 l+exp(w.x+b) (64) 
这 里 ，xe R" 是 输入 ，Ye {0,1} 是 输出 ，we R" 和 be R 是 参数 ，w 称 为 权 值 向 
量 ，4b 称 为 偏 置 ，w.x 为 w 和 x 的 内 积 . 


对 于 给 定 的 输入 实例 x， 按 照 式 (6.3) 和 式 (6.4) 可 以 求 得 P(Y=1|x) 和 
P(Y =0|x) .逻辑 斯 谤 回归 比较 两 个 条 件 概率 值 的 大 小 ， 将 实例 x 分 到 概率 值 较 
大 的 那 一 类 . 

有 时 为 了 方便 , 将 权 值 向 量 和 输入 向 量 加 以 扩充 , 仍 记 作 w，x，, 即 w= (wo， 
WO Wb ， = (x 中 ,x 中,…,x 中 ,1"， 这 时 ， 逻 辑 斯 谤 回归 模型 如 下 ;: 


P(Y=1|x)= (6.3) 


i = EXPOW°X) 
P(Y =1|x) I (6.5) 
1 
a (6.6) 


现在 考查 逻辑 斯 谤 回归 模型 的 特点 .一 个 事件 的 几率 (odds) 是 指 该 事件 发 
生 的 概率 与 该 事件 不 发 生 的 概率 的 比值 . 如 果 事 件 发 生 的 概率 是 p ， 那 么 该 事件 


的 几率 是 -全 该 事件 的 对 数 几 率 〈log odds) 或 logit 函数 是 


logit(p) =1log—2— 
l= 


对 逻辑 斯 谤 回归 而 言 ， 由 式 (6.5) 与 式 (6.6) 得 
POY=1D) .ry 
1-P(Y=1|x) 
这 就 是 说 ， 在 逻辑 斯 说 回归 模型 中 ， 输 出 了 =1 的 对 数 几 率 是 输入 x 的 线性 函数 . 
或 者 说 , 输出 Y=1 的 对 数 几率 是 由 输入 x 的 线性 函数 表示 的 模型 ， 即 逻辑 斯 谤 回 
归 模 型 . 

换 一 个 角度 看 ， 考 虑 对 输入 x 进行 分 类 的 线性 函数 w.x ， 其 值 域 为 实数 域 . 


log 
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注意 ， 这 里 xe R™ ,we R”" .通过 人 逻辑 斯 说 回归 模型 定义 式 (6.5) 可 以 将 线性 函 
数 w.x 转 换 为 概率 : 

exp(w. x) 

l+exp(w*x) 
这 时 ， 线 性 函数 的 值 越 接 近 正 无 穷 ， 概 率 值 就 越 接近 1; 线性 函数 的 值 越 接 近 负 
无 穷 ， 概 率 值 就 越 接 近 0 (如 图 6.1 所 示 )， 这样 的 模型 就 是 逻辑 斯 请 回归 模型 . 


6.1.3 ”模型 参数 估计 


逻辑 斯 谤 回归 模型 学 习 时 ， 对 于 给 定 的 训练 数据 集 T ={(%,7),(%,》)…， 
(xwsyw}， 其中，x%,e R"，y,e {0,D}， 可 以 应 用 极 大 似 然 估计 法 估计 模型 参数 ， 从 
而 得 到 多 辑 斯 席 回归 模型 . 

设 ; POY =1]0=A00), POY=0|x)=1-x(x) 
似 然 函数 为 


P(Y =1|x)= 


N 


[treoP zo) 


iel 


对 数 似 然 函 数 为 
人 
LW) = [ylogx(%) + (0—y)log(l ~—x(%))] 
气 





_& Xx(x) 本 
= 中 ylog— pe +log(1—Xx(x, | 


= Dw%) -log(l + exp(w%)] 


对 L(w) 求 极 大 值 ， 得 到 w 的 估计 值 . 

这 样 ， 问 题 就 变 成 了 以 对 数 似 然 函 数 为 目标 函数 的 最 优化 问题 逻辑 斯 谤 回 
归 学 习 中 通常 采用 的 方法 是 梯度 下 降 法 及 拟 牛 顿 法 . 

假设 w 的 极 大 似 然 估计 值 是 加， 那么 学 到 的 逻辑 斯 谤 回归 模型 为 

exp(W.x) 
1+exp(W.x) 
下 

l+exp(w.x) 


P(Y=1|x)= 
P(Y=0|x)= 


6.1.4 ”多 项 逻辑 斯 谤 回归 


上 面 介绍 的 逻辑 斯 说 回归 模型 是 二 项 分 类 模型 ,用 于 二 类 分 类 . 可 以 将 其 推 
广 为 多 项 逻辑 斯 详 回 归 模 型 《multi-nominal logistic regression model)， 用 于 多 类 
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分 类 . 假设 离散 型 随机 变量 7 的 取 值 集合 是 {2,…,K}， 那 么 多 项 逻辑 斯 谤 回归 
模型 是 


PO =k|D=— PD , k=1,2,,K-1 (6.7) 
1+ >,exp(w -x) 
k=] 
PE=KID=—m (6.8) 
1+ Dexp(w +x) 
k=1 


这 里 ，xe R"™ ,we R™. 
二 项 逻辑 斯 庄 回 归 的 参数 估计 法 也 可 以 推广 到 多 项 逻辑 斯 详 回 归 ， 


6.2 ”最 大 烦 模 型 


最 大 粹 模型 《maximum entropy model) 由 最 大 业 原 理 推导 实现 ， 这 里 首先 叙述 
一 般 的 最 大 粹 原理 ， 然 后 讲解 最 大 炳 模型 的 推导 ， 最 后 给 出 最 大 炳 模型 学 习 的 形式 . 


6.2.1 最 大 烦 原 理 


最 大 焕 原 理 是 概率 模型 学 习 的 一 个 准则 . 最 大 炳 原理 认为 , 学 习 概率 模型 时 ， 
在 所 有 可 能 的 概率 模型 《分布 ) 中 ， 焙 最 大 的 模型 是 最 好 的 模型 . 通常 用 约 东 条 
件 来 确定 概率 模型 的 集合 ， 所 以 ， 最 大 焙 原理 也 可 以 表述 为 在 满足 约束 条 件 的 模 





型 集合 中 选取 焙 最 大 的 模型 , 
假设 离散 随机 变量 了 的 概率 分 布 是 P(X)， 则 其 焙 ( 参 照 5.2.2 节 ) 是 
H(P)=-D P(x)logP(x) (6.9) 
焙 满 足下 列 不 等 式 : 


0<H(P)<Iog|X| 


式 中 ，| 雹 | 是 并 的 取 值 个 数 ， 当 且 仅 当天 的 分 布 是 均匀 分 布 时 右边 的 等 号 成 
立 . 这 就 是 说 ， 当 义 服 从 均匀 分 布 时 ， 炉 最 大 . 

直观 地 ， 最 大 粹 原理 认为 要 选择 的 概率 模型 首先 必须 满足 已 有 的 事实 ， 即 约 
束 条 件 ， 在 没有 更 多 信息 的 情况 下 ， 那 些 不 确定 的 部 分 都 是 “等 可 能 的 ”， 最 大 
糖 原理 通过 炳 的 最 大 化 来 表示 等 可 能 性 .“ 等 可 能 ”不 容易 操作 ， 而 箭 则 是 一 个 
可 优化 的 数值 指标 . 

首先 ， 通 过 一 个 简单 的 例子 来 介绍 一 下 最 大 业 原 理 ?. 


@@ 此 例 来 自 参考 文献 [1]. 
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例 6.1 假设 随机 变量 无 有 5 个 取 值 {4,B,C,D,E}， 要 估计 取 各 个 值 的 概率 
P(A), P(B), P(C), P(D), P(E). 
解 ” 这 些 概率 值 满 足以 下 约束 条 件 : 
P(A)+P(B)+ P(C)+P(D)+P(E)=1 
满足 这 个 约束 条 件 的 概率 分 布 有 无 穷 多 个 . 如 果 没有 任何 其 他 信息 ， 仍 要 对 概率 
分 布 进行 估计 ， 一 个 办 法 就 是 认为 这 个 分 布 中 取 各 个 值 的 概率 是 相等 的 ; 
P(A)=P(B)=P(C)=P(D)= P(E)= 3 
等 概率 表示 了 对 事实 的 无 知 ， 因 为 没有 更 多 的 信息 ， 这 种 判断 是 合理 的 . 
有 了 时， 能 人 例如 : 
P(A)+P(B)= 已 
P(A)+P(B)+P(C)+ P(D)+ P(E)=1 
满足 这 两 个 约束 条 件 的 概率 分 布 仍然 有 无 穷 多 个 . 在 缺少 其 他 信息 的 情况 下 ， 可 
以 认为 4 与 8 是 等 概率 的 ，C, DD 与 大 于 是 ， 


P(A)=P(B)= 总 
= PUBJ= 了 
P(O=PD)= P(E) = 


如 果 还 有 第 3 个 约束 条 件 : 
P(A)+P(C)= 了 


P(A)+ P(B) = 启 
P(A)+P(B)+P(C)+P(D)+P(E)=1 


可 以 继续 按照 满足 约束 条 件 下 求 等 概率 的 方法 估计 概率 分 布 .这 里 不 再 继续 讨 
论 ， 以 上 概率 模型 学 习 的 方法 正 是 遵循 了 最 大 人 原 理 . 上 

图 6.2 提供 了 用 最 大 炳 原理 进行 概率 模型 选择 的 几何 解释 . 概率 模型 集合 
可 由 欧 氏 空间 中 的 单纯 形 (simplex〉 “表示 ， 如 左 图 的 三 角形 (2- 单 纯 形 ). 一 个 
点 代表 一 个 模型 ， 整 个 单纯 形 代表 模型 集合 ， 右 图 上 的 一 条 直线 对 应 于 一 个 约束 
条 件 ， 直 线 的 交集 对 应 于 满足 所 有 约束 条 件 的 模型 集合 ， 一 般 地 ， 这 样 的 模型 仍 
有 无 穷 多 个 . 学 习 的 目的 是 在 可 能 的 模型 集合 中 选择 最 优 模 型 ， 而 最 大 炳 原理 则 
给 出 最 优 模型 选择 的 一 个 准则 . 











加 单纯 形 是 在 维 攀 氏 空间 中 的 n+1 个 仿 射 无 关 的 点 的 集合 的 凸 包 . 
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Pp Pp 





约束 1 约束 2 





概率 模型 空间 满足 约束 条 件 的 模型 集合 
6.2 概率 模型 集合 


6.2.2 ”最 大 灶 模 型 的 定义 


最 大 粹 原理 是 统计 学 习 的 一 般 原理 ， 将 它 应 用 到 分 类 得 到 最 大 粹 模型 ， 

假设 分 类 模型 是 一 个 条 件 概率 分 布 P(Y|X), Xe CR" 表 示 输入 , Ye ) 表 
示 输 出 ， 区 和 2 分 别 是 输入 和 输出 的 集合 . 这 个 模型 表示 的 是 对 于 给 定 的 输入 已， 
以 条 件 概率 P(Y|X) 输出 7. 

给 定 一 个 训练 数据 集 

T={G4,7), (572) xy yy)} 

学 习 的 目标 是 用 最 大 炳 原理 选择 最 好 的 分 类 模型 . 

首先 考虑 模型 应 该 满足 的 条 件 . 给 定 训练 数据 集 ， 可 以 确定 联合 分 布 P(X,Y) 
的 经 验 分 布 和 边缘 分 布 P(X) 的 经 验 分 布 ， 分 别 以 (X,Y) 和 PX) 表示 . 这 里 ， 
VX=x,Y=y) 

N 





BX=x%Y=y)= 
F(X = 已 
其 中 ，v(X=x, 了 =y) 表示 训练 数据 中 样本 (x,y) 出 现 的 频数 ，v(Y=x) 表示 训练 
数据 中 输入 x 出 现 的 频数 ，N 表示 训练 样本 容量 . 

用 特征 函数 (feature function) f(x,y) 描述 输入 x 和 输出 y 之 间 的 菜 -一 个 事 
实 . 其 定义 是 

_ 1， xz 与 ?满足 某 一 事实 
Jo)= fe 否则 

它 是 一 个 二 值 函数 ?”， 当 x 和 y 满 足 这 个 事实 时 取 值 为 1， 否则 取 值 为 0. 

特征 函数 f(x,y) 关于 经 验 分 布 (X,Y) 的 期 望 值 ， 用 E;(/) 表示 . 


Es(f)= B(x,y)f x,y) 
特征 函数 (x,y) 关于 模型 P(7 | 无 ) 与 经 验 分 布 B(X) 的 期 望 值 , 用 已 (六 表示 、 


一 般 地 ， 特 征 函 数 可 以 是 任意 实 值 函数 . 
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Ep(f)= 2 PP |x)f (x,y) 
如 果 模 型 能 够 获取 训练 数据 中 的 信息 , 那么 就 可 以 假设 这 两 个 期 望 值 相等 , 即 


Ep(f)=E;(f) (6.10) 
或 
PPOPOI DS) = YP, yf (x,») (6.11) 
> Ea 


我 们 将 式 (6.10) 或 式 (6.11) 作为 模型 学 习 的 约束 条 件 . 假如 有 个 特征 函数 
f(x,y)，i=1,2,…,n， 那 么 就 有 nn 个 约束 条 件 . 
定义 6.3〔 最 大 炳 模型 〉 假设 满足 所 有 约束 条 件 的 模型 集合 为 


C={PeP|E(f)=E;(f), i=1,2,…,n} (6.12) 
定义 在 条 件 概率 分 布 P(Y|X) 上 的 条 件 炳 为 
H(P)=-2, P(e)P(y|x)logP(y|x) (6.13) 


则 模型 集合 C 中 条 件 粹 及 (P) 最 大 的 模型 称 为 最 大 粹 模型 . 式 中 的 对 数 为 自然 
对 数 . 


6.2.3 ”最 大 焙 模 型 的 学 习 


最 大 粹 模型 的 学 习 过 程 就 是 求解 最 大 粹 模型 的 过 程 . 最 大 焙 模 型 的 学 习 可 以 
形式 化 为 约束 最 优化 问题 . 

对 于 给 定 的 训练 数据 集 T ={(%,),(%, 力 )…,(xwsyw} 以 及 特征 函数 f(x,y)， 
i=1,2,…,n， 最 大 炉 模 型 的 学 习 等 价 于 约束 最 优化 问题 : 


max  H(P)=-?,B(x)PO|x)logP(y|x) 


st. Ep(f)=Es(f), i=1,2,…,n 


过 Po19=1 
按照 最 优化 问题 的 习惯 ， 将 求 最 大 值 问题 改写 为 等 价 的 求 最 小 值 问题 ; 
min -HP)= EPP DlogPO|) (6.14) 
st. BO BS; i=1,2,…,n (6.15) 


PPD=1 (6.16) 
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求解 约束 最 优化 问题 (6.14) 一 (6.16)， 所 得 出 的 解 ， 就 是 最 大 焙 模 型 学 习 的 
解 .下 面 给 出 具体 推导 . 

这 里 ， 将 约束 最 优化 的 原始 问题 转换 为 无 约束 最 优化 的 对 偶 问 题 ?. 通过 求 
解 对 偶 问题 求解 原始 问题 . 

首先 ， 引 进 拉 格 朗 日 乘 子 w%,w,%,…,w,， 定 义 拉 格 朗 日 函数 工 (P,w): 





TA DE TA) 
学 和 1 
= 忆 FDOPO|alogPO| 加 +Hw [ -2P0y| 3] 


Bb (6.17) 


最 优化 的 原始 问题 是 

min max L(P,w) (6.18) 
对 偶 问题 是 

max minL(P,w) (6.19) 


由 于 拉 格 朗 日 函数 L(P,w) 是 尸 的 凸 函 数 ， 原 始 问题 (6.18) 的 解 与 对 偶 问题 
(6.19) 的 解 是 等 价 的 . 这 样 ， 可 以 通过 求解 对 偶 问 题 (6.19) 来 求解 原始 问题 (6.18). 
首先 ,求解 对 偶 问 题 (6.19) 内 部 的 极 小 化 问题 minL(P,w) . BR 如 Z(P,W 是 w 的 


函数 ， 将 其 记 作 
TY(w) =minL(P,w)=L(P,,w) (6.20) 
到 (w) 称 为 对 偶 函 数 ， 同时， 将 其 解 记 作 
P, =argminL(P,w)=P,(y|x) (6.21) 
具体 地 ， 来 L(P, 功 对 P(y| 罗 的 仿 导 数 


3L(P,w) 
oP(y|x) 





=2,P)(logPO D+1) -Dw -a wf cg] 


上 Zazeolesro [D+1-w 3) 


令 偏 导 数 等 于 0， 在 P(x) >0 的 情况 下 ， 解 得 





四 参阅 附录 C. 
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en 六 sx 
pO- (Smit m1] =— 
由 于 对 PC-1， 得 
忆 OD= 亏 区 exe (6.22) 
其 中 ， 
2 (6.23) 


Z,(x) 称 为 规范 化 因子 ; f(x,y) 是 特征 函数 ; w 是 特征 的 权 值 . 由 式 (6.22)、 式 (6.23) 
表示 的 模型 P, = P,(y|x) 就 是 最 大 粹 模型 . 这 里 ，w 是 最 大 炉 模型 中 的 参数 向 量 . 
之 后 ， 求 解 对 偶 问 题 外 部 的 极 大 化 问题 


max ¥(w) (6.24) 
将 其 解 记 为 w ， 即 
WwW =argmax Y(w) (6.25) 


这 就 是 说 ， 可 以 应 用 最 优化 算法 求 对 个 函数 交 (w) 的 极 大 化 ， 得 到 w ， 用 来 
表示 P'eC， 这 里 ，P'=P, = 忆 . (| 加 是 学 习 到 的 最 优 模 型 最 大 炳 模型 )， 也 
就 是 说 ， 最 大 炉 模 型 的 学 习 归 结 为 对 偶 函 数 (w) 的 极 大 化 . 

例 62 学 习 例 6. 中 的 最 大 业 模 型、 

解 ”为 了 方便 ,分 别 以 力 ,长 ,为 ,ys 为 表示 4，B，C, 万 和 已 于 是 最 大 炳 模 
型 学 习 的 最 优化 问题 是 


min ~H(P)= 守 PO ogPO) 
st. POD+PODJ= PO)+ Pos)= 语 
P00 -D800)=1 
引进 拉 格 朗 日 乘 子 w, w， 定 义 拉 格 朗 日 函数 


5 5 
Up =DPodeePod tw ( PON+ POD- 训 + [ 守 P00-1] 
i i 
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根据 拉 格 朗 日 对 偶 性 ， 可 以 通过 求解 对 偶 最 优化 问题 得 到 原始 最 优化 问题 的 


解 ， 所 以 求解 


max min L(P,w) 


首先 求解 L(P,w) 关于 P 的 极 小 化 问题 ,为 此 ， 固 定 w, w， 求 偏 导数 : 


Plt oerO) + tw 
HC lt log PO) + tw 
SE ltgpO) + 
PE lt ogPO) tm 
Ht lgPO) tw 


令 各 偏 导数 等 于 0， 解 得 


PO)=P0,)=e 
PO)= PO)= Ps)=e™" 


于 是 ， 


minL(P,w)=L(P,,w)=- em 3e-™™! -总 俐 一 区 


再 求解 L(P,,w) 关于 w 的 极 大 化 问题 ; 


a | 
max LP W) =-20™™ 30" 一 了 二 一 网 


10 
分 别 求 Z(P,,w) 对 wo,w 的 偏 导数 并 令 其 为 0， 得 到 
EC""-!— < 
20 
em 
30 
于 是 得 到 所 要 求 的 概率 分 布 为 


POD=PO)= 臣 


P05)=POW)=PO) = 地 
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6.2.4” 极 大 似 然 估计 


从 以 上 最 大 炳 模型 学 习 中 可 以 看 出 ， 最 大 炳 模型 是 由 式 (6.22)、 式 (6.23) 表示 的 
条 件 概率 分 布 ， 下 面 证 明 对 偶 函 数 的 极 大 化 等 价 于 最 大 粹 模型 的 极 大 似 然 估计 . 
已 知 训练 数据 的 经 验 概率 分 布 BX,Y) ， 条 件 概率 分 布 P(Y|X) 的 对 数 似 然 
函数 表示 为 
Ls(P,)=logTIPO IX = Px, y)logP(y|») 


当 条 件 概率 分 布 P(y|x) 是 最 大 炉 模型 (6.22) 和 (6.23) 时 ,对 数 似 然 函数 L,(P,) 为 
Ls(P,)= 5 B(x,y)logP(y |x) 
= BT Wwf) TP,y)logZ,(x) 
Ex i=] By 
=5 PB, WY wf -TBIlogZ,(x) (626) 
2 tel 冲 
再 看 对 偶 函 数 罗 (w) ， 由 式 (6.17) 及 式 (6.20) 可 得 
Y(w)= B(x)P,(y|x)logP,(y 1x) 
yy 
+ [Fre Ds ND- TEP, GID, ] 
i Ey x 
=5 BG, WY wf + TE)P,0| aoeeol -Sw cy 
Ry =l wy i=] 
= TB, WY wf -TBP, yl)1ogZ, (x) 
Ex 二 -xy 
=T PG WY fts -EP 18Z,0) (627) 
人 2 
最 后 一 步 用 到 > P(y|x)=1. 
Jy 


比较 式 (6.26) 和 式 (6.27)， 可 得 
¥(w)=Ls(P,) 


既然 对 偶 函 数 罗 (w) 等 价 于 对 数 似 然 函 数 L;(P,) ， 于 是 证 明了 最 大 焙 模 型 学 习 中 
的 对 偶 函 数 极 大 化 等 价 于 最 大 粹 模型 的 极 大 似 然 估计 这 一 事实 . 

这 样 ， 最 大 迷 模 型 的 学 习 问 题 就 转换 为 具体 求解 对 数 似 然 函 数 极 大 化 或 对 偶 
函数 极 大 化 的 问题 . 

可 以 将 最 大 粹 模型 写成 更 一 般 的 形式 . 
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R01D= 





ee (6.28) 


其 中 ， 
RD (6.29) 


这 里 , xe R" 为 输入 , ye 出 2,…, 天 } 为 输出 , we R" 为 权 值 向 量 , f(x,y), i=1,2,…,n 
为 任意 实 值 特征 函数 . 

最 大 燃 模 型 与 逻辑 斯 说 回归 模型 有 类 似 的 形式 ， 它 们 又 称 为 对 数 线性 模型 
(log linear model)， 模 型 学 习 就 是 在 给 定 的 训练 数据 条 件 下 对 模型 进行 极 大 似 然 
估计 或 正则 化 的 极 大 似 然 估计 . 


6.3 模型 学 习 的 最 优化 算法 


逻辑 斯 说 回归 模型 、 最 大 粹 模型 学 习 归结 为 以 似 然 函 数 为 目标 函数 的 最 优化 
问题 ， 通 常 通过 迭代 算法 求解 。 从 最 优化 的 观点 看 ， 这 时 的 目标 函数 具有 很 好 的 
性 质 . 它 是 光滑 的 凸 函数 ， 因 此 多 种 最 优化 的 方法 都 适用 ， 保 证 能 找到 全 局 最 优 
解 . 常用 的 方法 有 改进 的 迭代 尺度 法 、 梯 度 下 降 法 、 牛 顿 法 或 拟 牛 顿 法 ， 牛 顿 法 
或 拟 牛 顿 法 一 般 收敛 速度 更 快 . 

下 面 介 绍 基 于 改进 的 迭代 尺度 法 与 拟 牛 顿 法 的 最 大 焙 模 型 学 习 算法 . 梯度 下 
降 法 参阅 附录 A. 


6.3.1 改进 的 迭代 尺度 法 
改进 的 迭代 尺度 法 (improved iterative scaling，IIS， 是 一 种 最 大 粹 模型 学 习 
的 最 优化 算法 . 
已 知 最 大 粹 模型 为 
O01- "pm ] 
其 中 ， 
zO=Zen[ 半 sx] 


对 数 似 然 函数 为 
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LW)=T Pe WE mf) -DBC ogZ,.0) 


目标 是 通过 极 大 似 然 估计 学 习 模 型 参数 ， 即 求 对 数 似 然 函 数 的 极 大 值 太 . 
TIS 的 想法 是 ， 假 设 最 大 糯 模 型 当前 的 参数 向 量 是 ww= 04,w,…,w)"， 我 们 
希望 找到 一 个 新 的 参数 向 量 w+ 5 一 (W +6,w + 6.,…,w, +6,)， 使 得 模型 的 对 数 
似 然 函数 值 增 大 。 如 果 能 有 这 样 一 种 参数 向 量 更 新 的 方法 z:w w+6， 那 么 就 
可 以 重复 使 用 这 -- 方 法， 直至 找到 对 数 似 然 函数 的 最 大 值 , 
对 于 给 定 的 经 验 分 布 Ex )) ， 模 型 参数 从 mw 到 w+ 6， 对 数 似 然 函 数 的 改变 
量 是 
L(w+ 6) -LW)= TP ylogPsly | -TPGx,y)1ogP.0y|») 
Ey xy 
= BD).Gf -TB iog 2 
和 2 > Z.0 
利用 不 等 式 
-logw>=1-Qc， o>0 


建立 对 数 似 然 函 数 改 变量 的 下 界 : 


AD A 辐 
EE il x w 


A 
将 右 端 记 为 
A = BE Pe WE GI D+- EVE ROI Dd eps) 
于 是 有 
L(w+6)-L(W) > AGIW) 


即 4(61w) 是 对 数 似 然 函 数 改 变量 的 一 个 下 界 . 

如 果 能 找到 适当 的 5 使 下 界 4(51w) 提高， 那么 对 数 似 然 函 数 也 会 提高 ， 然 
而 ， 函 数 4(6 1w) 中 的 5 是 一 个 向 量 ， 含 有 多 个 变量 ， 不 易 同时 优化 ，IIS 试图 一 
次 只 优化 其 中 一 个 变量 5 ， 而 固定 其 他 变量 6,，izj. 

为 达到 这 一 目的 ,IIS 进一步 降低 下 界 4(61w). 具 体 地 ,IIS 引进 一 个 量 /*(x, y)， 


f(D)= 2 fx)) 
因为 是 二 值 函数 , 故 /*(x,y) 表 示 所 有 特征 在 (x,y) 出 现 的 次 数 . 这 样 ，4(6 |w) 
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可 以 改写 为 
Gf 
AG1W = Ee DTSfC D+ Ze oye 7 Gy HE 2 
(6.30) 
利用 指数 函数 的 凸 性 以 及 对 任意 ;， 有 -Ce 切 > 0 且 六 光芒 -1 这 一 事实 , 根 
PE 
据 Jensen 不 等 式 ， 得 到 


op 守候 2 Lbay) pr 中 < 袜 A A CA) 





于 是 式 (6.30) 可 改写 为 
AGI WED PO, y TLC D+ TOT P| 9 生 罗 eerem 
i=] x y i=] y 


(6.31) 
记 不 等 式 (6.31) 右 端 为 


B61w)= pe D+1i-EWE Ro 7 他 C2 天 2 jor 功 
于 是 得 到 
L(w+O)—L(w)> B(6|w) 


这 里 ，B(61w) 是 对 数 似 然 函 数 改 变量 的 一 个 新 的 (相对 不 紧 的 ) 下 界 . 
求 B8(561w) 对 56 的 偏 导 数 : 


A 
i yy » 了 


(6.32) 
在 式 (6.32) 里 ， 除 8 外 不 含 任何 其 他 变量 . 令 偏 导数 为 0 得 到 
BD PO)P, {x) fCx, y)exp(6.f’ (x,»)) =E,(f) | (6.33) 


于 是 ， 依 次 对 上 求解 方程 (6.33) 可 以 求 出 5. 
这 就 给 出 了 一 种 求 w 的 最 优 解 的 迭代 算法 ， 即 改进 的 迭代 尺度 算法 IIS. 
算法 6.1 (改进 的 和 迭代 尺度 算法 JIS) 
输入 : 特征 函数 有 , 态 …, ;经 验 分 布 B(X,Y)， 模 型 P,(y|x) 
输出 : 最 优 参数 值 W ， 最 优 模型 已 . . 
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《1) 对 所 有 ie {1,2,…,n} ， 取 初 值 w =0 
(2) 对 每 一 ie {1,2,…,n} : 
(a) 令 了 是 方程 
DPPC | fx, yexp(6.f (x,y) = Es(f) 


的 解 ， 这 里 ， 
f° 05)=D fs) 


(b) 更 新 w 值 : ww+5 
(3) 如 果 不 是 所 有 w 都 收敛 ， 重 复 步 (2). 
这 一 算法 关键 的 一 步 是 (a), 即 求解 方程 (6.33) 中 的 56. 如 果 f*(x,y) 是 常数 ， 
即 对 任何 x,y， 有 _f*(x,y)=M ， 那 么 6 可 以 显 式 地 表示 成 


Pe WA) 


M E(f) 

如 果 f*(x,y) 不 是 常数 ， 那么 必须 通过 数值 计算 求 6. 简单 有 效 的 方法 是 牛顿 

法 ， 以 g(6,)=0 表 示 方程 (6.33)， 和 牛顿 法 通过 迭 代 求 得 下， 使 得 g(6)= 0， 和 迭代 
公式 是 


(6.34) 


+4D) 1» 8(0") 
OY = 855 


只 要 适当 选取 初始 值 5 ， 由 于 名 的 方程 (6.33) 有 单 根 ， 因 此 牛顿 法 恒 收敛 ， 而 
且 收 敛 速度 很 快 . 


6.3.2” 拟 牛顿 法 


最 大 焙 模 型 学 习 还 可 以 应 用 牛顿 法 或 拟 牛顿 法 .参阅 附录 B. 
对 于 最 大 迷 模 型 而 言 ， 





(6.35) 


Susey] 


ll 
BPI)=— OO— 人 人 
Dee (Fwy] 
目标 函数 : 


mip 100= EP) 8 Eee Sm] -TA yw) 
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梯度 : 


_faxcoo YW ¥ee) 
Ee BS "ow 


其 中 
YO SF BWR OVD -BN), 12 
和 
相应 的 拟 牛 顿 法 BFGS 算法 如 下 . 
算法 6.2( 最 硕 模型 学 习 的 BFGS 算法 
输入 : 特征 函数 f, 有,…,f,; 经 验 分 布 B(x,y) ， 目 标 函 数 了 (w), 梯度 g(w) = 
Vf/(w), 精度 要 求 € ; 
输出 ， 最 优 参 数值 w'; 最 优 模型 P.(y|x). 
(1) 选 定 初始 点 wo ， 取 脉 为 正定 对 称 和 矩阵 ， 置 上 =0 
(2) 计算 g =g(w 中 ). 若 || gi |<e， 则 停止 计算 ， 得 w' = wo ， 否 则 转 (3) 
(3) 由 Bp =-&4 求 出 p 
(4) 一 维 搜索 ， 求 和 4 使 得 


SW +Ap) =minf (WY +Ap,) 
(5) 置 we = w+ 入 大 
(6) 计算 gw =8Cw)， 若 lgusl<e ， 则 停止 计算 ， 得 w = wem ， 理 则 ， 
按 下 式 求 出 马 ,: : 


i 

Vy _ BOOr Be 

B=B + 一 -一 一 上 和 一 上 
Ww 区 人 SB6. 


其 中 ， 
Wg -Be B=w -we 


(7) 置 £=k+1， 转 (3). a 


本 章 概 要 


1. 多 辑 斯 谤 回归 模型 是 由 以 下 条 件 概 率 分 布 表 示 的 分 类 模型 ,逻辑 斯 谤 
归 模 型 可 以 用 于 二 类 或 多 类 分 类 . 


P(Y=k|2)=— POD, 12, kl 


Fz 


1+ Dexp(w .如 
k=] 





加 
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P(Y=K|x)= 1 


1 


1+ exp(w 
k=1 


里 ，x 为 输入 特征 ，w 为 特征 的 权 值 . 
逻辑 斯 诺 回 归 模型 源 自 逻 辑 斯 庄 分 布 ， 其 分 布 函数 F(z) 是 S 形 函数 ,逻辑 斯 
谤 回归 模型 是 由 输入 的 线性 函数 表示 的 输出 的 对 数 几 率 模型 . 
2. 最 大 粹 模型 是 由 以 下 条 件 概率 分 布 表 示 的 分 类 模型 .最 大 烂 模型 也 可 以 
用 于 二 类 或 多 类 分 类 . 





POW- 村 本 ee bd) 
2,(0) = Eos (Smee) 


其 中 ，2,(x) 是 规范 化 因子 ，_ 为 特征 函数 ，w 为 特征 的 权 值 ， 

3， 最 大 粹 模型 可 以 由 最 大 炳 原理 推导 得 出 ,最 大 粹 原理 是 概率 模型 学 习 或 
估计 的 一 个 准则 . 最 大 炉 原 理 认 为 在 所 有 可 能 的 概率 模型 分布) 的 集合 中 ， 焕 
最 大 的 模型 是 最 好 的 模型 . 

最 大 炳 原理 应 用 到 分 类 模型 的 学 习 中 ， 有 以 下 约束 最 优化 问题 : 


min ~H(P)= ?PCO)P(y| logP(y | 


st. P(f)-BP(f)=0, i=1,2,,n 
DP01D=1 
7 


求解 此 最 优化 问题 的 对 偶 问 题 得 到 最 大 粹 模型 . 

4. 逻辑 斯 说 回归 模型 与 最 大 粹 模型 都 属于 对 数 线性 模型 . 

5， 逻 辑 斯 谤 回归 模型 及 最 大 粹 模型 学 习 一 般 采 用 极 大 似 然 估计 ， 或 正则 化 
的 极 大 似 然 估 计 . 逻辑 斯 说 回归 模型 及 最 大 炉 模型 学 习 可 以 形式 化 为 无 约束 最 优 
化 问题 . 求解 该 最 优化 问题 的 算法 有 改进 的 迭代 尺度 法 、 梯 度 下 降 法 、 拟 牛顿 法 . 


继续 阅读 


逻辑 斯 庄 回 归 的 介绍 参见 文献 [0]， 最 大 迷 模 型 的 介绍 参见 文献 [2, 3]， 逻 辑 
斯 谤 回归 模型 与 朴素 贝 叶 斯 模型 的 关系 参见 文献 [各 ， 风 辑 斯 谤 回归 模型 与 
AdaBoost 的 关系 参见 文献 [5]， 逻 辑 斯 谤 回归 模型 与 核 函 数 的 关系 参见 文献 [6]. 
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6.1 
6.2 
6.3 


I 
[2] 


GB] 


| 
[5] 


[9 


习 题 


确认 逻辑 斯 说 分 布 属于 指数 分 布 族 . 
写 出 逻辑 斯 诺 回 归 模 型 学 习 的 梯度 下 降 算法 . 
写 出 最 大 粹 模型 学 习 的 DFP 算法 . (关于 一 般 的 DFP 算法 参见 附录 B) 
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第 7 章 支持 向 量 机 


支持 向 量 机 〈support vector machines，SVM) 是 一 种 二 类 分 类 模型 . 它 的 基 
本 模型 是 定义 在 特征 空间 上 的 间隔 最 大 的 线性 分 类 器 ， 间 隔 最 大 使 它 有 别 于 感知 
机 ; 支持 向 量 机 还 包括 核 技巧 ， 这 使 它 成 为 实质 上 的 非 线性 分 类 器 . 支持 向 量 机 
的 学 习 策略 就 是 间隔 最 大 化 ， 可 形式 化 为 一 个 求解 凸 二 次 规划 〈convex quadratic 
programming) 的 问题 ， 也 等 价 于 正则 化 的 合 页 损失 函数 的 最 小 化 问题 .支持 向 
量 机 的 学 习 算 法 是 求解 凸 二 次 规划 的 最 优化 算法 . 

支持 向 量 机 学 习 方 法 包含 构建 由 简 至 繁 的 模型 : 线性 可 分 支持 向 量 机 (linear 
support vector machine in linearly separable case)、 线 性 支持 向 量 机 《linear support 
vector machine) 及 非 线性 支持 向 量 机 (non-linear support vector machine)， 简 单 
模型 是 复杂 模型 的 基础 ， 也 是 复杂 模型 的 特殊 情况 . 当 训练 数据 线性 可 分 时 ， 通 
过 硬 间隔 最 大 化 hard margin maximization)， 学 习 一 个 线性 的 分 类 器 ， 即 线性 可 
分 支持 向 量 机 ， 又 称 为 硬 间 隔 支持 向 量 机 ， 当 训练 数据 近似 线性 可 分 时 ， 通 过 软 
间隔 最 大 化 《soft margin maximization)， 也 学 习 一 个 线性 的 分 类 器 ， 即 线性 支持 
向 量 机 ， 又 称 为 软 间隔 支持 向 量 机 ， 当 训练 数据 线性 不 可 分 时 ， 通 过 使 用 核 技巧 
《kernel trick) 及 软 间 隔 最 大 化 ， 学 习 非 线性 支持 向 量 机 . 

当 输 入 空间 为 欧 氏 空间 或 离散 集合 、 特 征 空 间 为 希 尔 伯 特 空间 时 ， 核 函数 
(kernel function) 表示 将 输入 从 输入 空间 映射 到 特征 空间 得 到 的 特征 向 量 之 间 的 
内 积 . 通过 使 用 核 函 数 可 以 学 习 非 线性 支持 向 量 机 ， 等 价 于 隐 式 地 在 高 维 的 特征 
空间 中 学 习 线 性 支持 向 量 机 .这样 的 方法 称 为 核 技巧 . 核 方 法 kernel method) 是 
比 支持 向 量 机 更 为 一 般 的 机 器 学 习 方 法 . 

Cortes 与 Vapnik 提出 线性 支持 向 量 机 ，Boser、Guyon 与 Vapnik 又 引入 核 技 
巧 ， 提 出 非 线性 支持 向 量 机 . 

本 章 按照 上 述 思 路 介绍 3 类 支持 向 量 机 、 核 函数 及 一 种 快速 学 习 算 法 一 一 序 
列 最 小 最 优化 算法 《SMO). 


7.1 线性 可 分 支持 向 量 机 与 硬 间隔 最 大 化 
7.1.1 线性 可 分 支持 向 量 机 


考虑 一 个 二 类 分 类 问题 .假设 输入 空间 与 特征 空间 为 两 个 不 同 的 空间 . 输入 
空间 为 欧 氏 空间 或 离散 集合 ,特征 空间 为 欧 氏 空间 或 希 尔 伯 特 空间 . 线性 可 分 支 
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持 向 量 机 、 线 性 支持 向 量 机 假设 这 两 个 空间 的 元 素 一 一 对 应 ， 并 将 输入 空间 中 的 
输入 映射 为 特征 空间 中 的 特征 向 量 . 非 线性 支持 向 量 机 利用 一 个 从 输入 空间 到 特 
征 空间 的 非 线性 映射 将 输入 映射 为 特征 向 量 . 所 以 ， 输 入 都 由 输入 空间 转换 到 特 
征 空间 ， 支 持 向 量 机 的 学 习 是 在 特征 空间 进行 的 . 
假设 给 定 一 个 特征 空间 上 的 训练 数据 集 
T={06,7),%, 2), (zw 站 

其 中 ,x,e 让 =R"，y,e y={+1,-D}，i=1,2,…,N，x 为 第 i 个 特征 向 量 ， 也 称 为 
实例 ，y 为 不 的 类 标记 ， 当 y=+1 时 ， 称 为 正 例 ; 当 y=-1 时 ， 称 % 为 负 例 ， 
(5, 力 ) 称 为 样本 点 ， 再 假设 训练 数据 集 是 线性 可 分 的 〈 见 定义 2.2). 

学 习 的 目标 是 在 特征 空间 中 找到 一 个 分 离 超 平面 ， 能 将 实例 分 到 不 同 的 
类 . 分 离 超 平 面 对 应 于 方程 w.x+b=0， 它 由 法 向 量 w 和 和 截 距 b 决 定 , 可 用 (w,b) 
来 表示 . 分 离 超 平面 将 特征 空间 划分 为 两 部 分 , 一 部 分 是 正 类 , 一 部 分 是 负 类 . 法 
向 量 指向 的 一 侧 为 正 类 ， 另 一 侧 为 负 类 . 

一 般 地 , 当 训 练 数据 集 线 性 可 分 时 ,存在 无 穷 个 分 离 超 平面 可 将 两 类 数据 正确 
分 开 ， 感 知 机 利用 误 分 类 最 小 的 策略 ， 求 得 分 离 超 平面 ， 不 过 这 时 的 解 有 无 穷 多 
个 . 线性 可 分 支持 向 量 机 利用 间隔 最 大 化 求 最 优 分 离 超 平面 , 这 时 , 解 是 唯一 的 . 

定义 7.1 (线性 可 分 支持 向 量 机 ) 给 定 线性 可 分 训练 数据 集 , 通过 间隔 最 大 
化 或 等 价 地 求解 相应 的 凸 二 次 规划 问题 学 习 得 到 的 分 离 超 平面 为 

W x+ 及 =0 (7.1) 





以 及 相应 的 分 类 决策 函数 
f(x) =signGw .x+6") (72) 

称 为 线性 可 分 支持 向 量 机 . 
考虑 如 图 7.1 所 示 的 二 维特 征 空间 中 的 分 类 问题 . 图 中 “。” 表 示 正 例 ,“x” 


表示 负 例 . 训练 数据 集 线 性 可 分 , 这 时 有 许多 直线 能 将 两 类 数据 正确 划分 . 线性 可 
分 支持 向 量 机 对 应 着 将 两 类 数据 正确 划分 并 且 间 隔 最 大 的 直线 ， 如 图 7.1 所 示 . 





图 7.1 二 类 分 类 问题 
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间隔 最 大 及 相应 的 约束 最 优化 问题 将 在 下 面 叙述 . 这 里 先 介绍 函数 间隔 和 几 
何 闻 隔 的 概念 . 


7.1.2 ”函数 间隔 和 几何 间隔 


在 图 7.1 中 ， 有 4，B，C 三 个 点 ， 表 示 3 个 实例 ， 均 在 分 离 超 平面 的 正 类 一 
侧 ， 预 测 它们 的 类 . 点 4 距 分 离 超 平面 较 远 ， 若 预测 该 点 为 正 类 ， 就 比较 确信 预 
测 是 正确 的 ， 点 C 距 分 离 超 平面 较 近 ， 若 预测 该 点 为 正 类 就 不 那么 确信 ;点 8 介 
于 点 4 与 C 之 间 ， 预 测 其 为 正 类 的 确信 度 也 在 4 与 C 之 间 . 

一 般 来 说 ， 一 个 点 距离 分 离 超 平面 的 远近 可 以 表示 分 类 预测 的 确信 程度 在 
超 平 面 w.x+b=0 确定 的 情况 下 , |w.x+5| 能 够 相对 地 表示 点 x 距离 超 平面 的 远 
近 . 而 w.x+5b 的 符号 与 类 标记 y 的 符号 是 否 一 致 能 够 表示 分 类 是 否 正确 ， 所 以 
可 用 量 y(w.x+5) 来 表示 分 类 的 正确 性 及 确信 和 度 ， 这 就 是 函数 间隔 (functional 
margin) 的 概念 . 

定义 7.2〈 函 数 间隔 ) ”对 于 给 定 的 训练 数据 集 T 和 超 平面 (w,b) ， 定 义 超 平 
面 (w,b) 关于 样本 点 (%,,y) 的 函数 间隔 为 


P=y(w%+b) (7.3) 

定义 超 平面 (w,b) 关于 训练 数据 集 7 的 函数 间隔 为 超 平面 (w,b) 关于 7 中 所 有 样 
本 点 (%,») 的 函数 间隔 之 最 小 值 ， 即 

少 = min 包 (7.4) 


LN 





函数 间隔 可 以 表示 分 类 预测 的 正确 性 及 确信 度 . 但 是 选择 分 离 超 平面 时 ， 只 
有 函数 间隔 还 不 够 ,因为 只 要 成 比例 地 改变 w 和 b， 例如 将 它们 改 为 2w 和 25b， 超 
平面 并 没有 改变 , 但 函数 间隔 却 成 为 原来 的 2 倍 . 这 一 事实 启示 我 们 ， 可 以 对 分 离 
超 平面 的 法 向 量 w 加 某 些 约束 ， 如 规范 化 ，|| wl=1， 使 得 间隔 是 确定 的 . 这 时 函 
数 间隔 成 为 几何 间隔 (geometric margin). 

图 7.2 给 出 了 超 平 面 (w,5b) 及 其 法 向 量 w .点 4 表示 某 一 实例 x,， 其 类 标记 
为 上 ,=+1. 点 4 与 超 平面 (wj 的 距离 由 线段 4B 给 出 ， 记 作 Y . 
5 

lwll 


其 中 ，1lwj 为 w 的 石 范 数 ， 这 是 点 4 在 超 平面 正 的 一 侧 的 情形 ， 如 果 点 4 在 超 
平面 负 的 一 侧 ， 即 y= 一 1， 那 么 点 与 超 平面 的 距离 为 


7 
Nw wl 


lt 
‘iw 
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一 般 地 ， 当 样本 点 (%,y) 被 超 平面 (w,b) 正确 分 类 时 ， 点 国 与 超 平面 (w 刀 的 
距离 是 


w b 
” = 六“ 
由 这 一 事实 导出 几何 间隔 的 概念 . 





图 7.2 几何 间隔 


定义 73《〈 几 何 间隔 ) ”对 于 给 定 的 训练 数据 集 7 和 超 平面 (w,b) ， 定 义 超 平 
面 (w 妨 关于 样本 点 (zx, 思 ) 的 几何 间隔 为 


EN 
g ( 疝 + (9 


定义 超 平面 (wb) 关于 训练 数据 集 T 的 几何 间隔 为 超 平面 (w,5b) 关于 7 中 所 
有 样本 点 (%,y,) 的 几何 间隔 之 最 小 值 ， 即 


7 





= ,min,% (7.6) 
超 平面 (wb) 关于 样本 点 (%,y) 的 几何 间隔 一 般 是 实例 点 到 超 平面 的 带 符 号 
的 距离 (signed distance)， 当 样本 点 被 超 平面 正确 分 类 时 就 是 实例 点 到 超 平 面 的 
距离 . 
从 函数 间隔 和 几何 间隔 的 定义 〈 式 (73) 一 式 (7.6)) 可 知 ， 函 数 间隔 和 几何 间 
隔 有 下 面 的 关系 : 
六 
= 一 7. 
A 090 
人 
”wl 
如 果 |e| 上 = 1， 那么 函数 间隔 和 几何 间隔 相等 . 如 果 超 平面 参数 w 和 思 成 比例 地 改 
变 ( 超 平面 没有 改变 )， 函 数 间隔 也 按 此 比例 改变 ， 而 几何 间隔 不 变 . 


(7.8) 
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7.1.3 ”间隔 最 大 化 


支持 向 量 机 学 习 的 基本 想法 是 求解 能 够 正确 划分 训练 数据 集 并 且 几 何 间隔 
最 大 的 分 离 超 平面 . 对 线性 可 分 的 训练 数据 集 而 言 ， 线 性 可 分 分 离 超 平 面 有 无 穷 
多 个 (等 价 于 感知 机 )， 但 是 几何 间隔 最 大 的 分 离 超 平面 是 唯一 的 . 这 里 的 间隔 
最 大 化 又 称 为 硬 间隔 最 大 化 (与 将 要 讨论 的 训练 数据 集 近似 线性 可 分 时 的 软 间 隔 
最 大 化 相对 应 ). 

间隔 最 大 化 的 直观 解释 是 : 对 训练 数据 集 找到 几何 间隔 最 大 的 超 平面 意味 着 
以 充分 大 的 确信 度 对 训练 数据 进行 分 类 .也 就 是 说 ， 不 仅 将 正 负 实 例 点 分 开 ， 而 
且 对 最 难 分 的 实例 点 〈 离 超 平面 最 近 的 点 ) 也 有 足够 大 的 确信 度 将 它们 分 开 . 这 
样 的 超 平面 应 该 对 未 知 的 新 实例 有 很 好 的 分 类 预测 能 力 


1， 最 大 间隔 分 离 超 平面 


下 面 考虑 如 何 求 得 一 个 几何 间隔 最 大 的 分 离 超 平面 ， 即 最 大 间隔 分 离 超 平 
面具 体 地 ， 这 个 问题 可 以 表示 为 下 面 的 约束 最 优化 问题 


7 (7.9) 





max 
wb 


x |, fk 
St. 0 +] yy», i=1,2,.,N (7.10) 
即 我 们 希望 最 大 化 超 平面 (w,b) 关于 训练 数据 集 的 几何 间隔 y， 约 束 条 件 表示 的 
是 超 平面 (w,b) 关于 每 个 训练 样本 点 的 几何 间隔 至 少 是 7， 

考虑 几何 间隔 和 函数 间隔 的 关系 式 (7.8)， 可 将 这 个 问题 改写 为 


na Ti (7.11) 


St pwR+b)EP, i=L,2,,N (7.12) 


函数 间隔 乡 的 取 值 并 不 影响 最 优化 问题 的 解 。 事 实 上 ， 假 设 将 w 和 b 按 比例 
改变 为 Ahw 和 入 ， 这 时 函数 间隔 成 为 入 .函数 间隔 的 这 一 改变 对 上 面 最 优化 问 
题 的 不 等 式 约束 没有 影响 ， 对 目标 函数 的 优化 也 没有 影响 ， 也 就 是 说 ， 它 产生 一 
个 等 价 的 最 优化 问题 这样， 就 可 以 取 少 =1. 将 =1 代 入 上 面 的 最 优化 问题 ， 注 


意 到 最 大 化 和 最 小 化 | 人 是 等 从 的 ， 于 是 就 得 到 下 面 的 线性 可 分 支持 向 


量 机 学 习 的 最 优化 问题 
mp Slw 0.13) 
st ywith) -1l>0, i=h2,,N (7.14) 
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这 是 一 个 凸 二 次 规划 (convex quadratic programming) 问题 . 


凸 优化 问题 是 指 约束 最 优化 问题 
min jw) 07.15) 
st g(w)<O0, i=1,2,,k (7.16) 
h(W)=0, i=1,2,.,1 (7.17) 
其 中 ， 目 标 函 数 f(w) 和 约束 函数 g;(w) 都 是 R" 上 的 连续 可 微 的 凸 函数 ， 约 束 函 
数 有 (w) 是 R" 上 的 仿 射 函 数 ?. 


当 目标 函数 f(w) 是 二 次 函数 且 约束 函数 gj(w) 是 仿 射 函 数 时 ， 上 述 凸 最 优化 
问题 成 为 凸 二 次 规划 问题 . 

如 果 求 出 了 约束 最 优化 问题 (7.13) ~ (7.14) 的 解 w',b" ， 那 么 就 可 以 得 到 最 
大 间隔 分 离 超 平面 w'.x+b" =0 及 分 类 决策 函数 (xz) = sign(w .x+ 六 )， 即 线性 可 
分 支持 向 量 机 模型 . 

综 上 所 述 ， 就 有 下 面 的 线性 可 分 支持 向 量 机 的 学 习 算法 一 一 最 大 间隔 法 
(maximum margin method). 

算法 7.1 线 性 可 分 支持 向 量 机 学 习 算法 一 一 最 大 间隔 法 ) 

输入 : 线性 可 分 训练 数据 集 了 = {4,7),(%,y)…,(xwsyw)}，* 其 中 ，xe 
区 =R"，JeD={D+，i=12…N， 

输出 ;最 大 间隔 分 离 超 平面 和 分 类 决策 函数 ， 

(1) 构造 并 求解 约束 最 优化 问题 : 


: 1 
min 了 ho 
2 


st Ji(wo+ 有 -1>0，i=12N 


求 得 最 优 解 w',b* . 
(2) 由 此 得 到 分 离 超 平面 : 
wx+b’=0 
分 类 决策 函数 
7CD =signGCw .x+b") 四 


2， 最 大 间隔 分 离 超 平面 的 存在 唯一 性 

线性 可 分 训练 数据 集 的 最 大 间隔 分 离 超 平面 是 存在 且 唯 一 的 . 

定理 7.1 (最 大 间隔 分 离 超 平面 的 存在 唯一 性 ) 车 训练 数据 集 T 线性 可 分 , 则 
可 将 训练 数据 集中 的 样本 点 完全 正确 分 开 的 最 大 间隔 分 离 超 平面 存在 且 唯一 





@ f(x) 称 为 仿 射 函 数 ， 如 果 它 满足 f(x)=a.x+b, aeR", beR, xeR”. 


7.1 线性 可 分 支持 向 量 机 与 硬 间隔 最 大 化 101 





证 明 (1) 存在 性 

由 于 训练 数据 集 线 性 可 分 ， 所 以 算法 7.1 中 的 最 优化 问题 (7.13) 一 (7.14) 一 定 
存在 可 行 解 ， 又 由 于 目标 函数 有 下 界 ， 所 以 最 优化 问题 (7.13) ~ (7.14) 必 有 解 ， 记 
作 (w',b") . 由 于 训练 数据 集中 既 有 正 类 点 又 有 负 类 点 ， 所 以 (w 及 = (0, 刀 不 是 最 
优化 的 可 行 解 , 因而 最 优 解 (w',5") 必 满足 w #0 . 由 此 得 知 分 离 超 平面 的 存在 性 . 

(2) 唯一 性 

首先 证 明 最 优化 问题 (7.13) ~ (7.14) 解 中 wi 的 唯一 性 , 假设 问题 (7.13) 一 (7.14) 
存在 两 个 最 优 解 (Ws, 如 ) 和 (wi, 及 ) . 显然 1w =1 邓 1=e， 其 中 是 一 个 常数 . 令 


w= 区 ， b= 和 4， 易 知 (wb) 是 问题 (7.13) ~ (7.14) 的 可 行 解 ， 从 而 有 
ce<Iwl<Slw lle 


上 式 表 明 , 式 中 的 不 等 号 可 变 为 等 号 即 | 二 | wy 1+ 了 1， 从 而 有 叶 = at， 


141=1. 若 1=-1,， 则 w=0，(w,5) 不 是 问题 (7.13) ~ (7.14) 的 可 行 解 ， 矛 盾 . 
此 必 有 4=1， 即 


从 二 侈 


由 此 可 以 把 两 个 最 优 解 (局, 如 ) 和 (Ww, 太 ) 分别 写成 (w',&r) 和 (w', 太 ) ， 再 证 
如 = 所 . 设 太 和 蕊 是 集合 {x1y,=+ 直 中 分 别 对 应 于 (wi, 如 ) 和 (wi, 避 ) 使 得 问题 的 
不 等 式 等 号 成 立 的 点 ， 允 和 忆 是 集合 知 | 思 =-] 中 分 别 对 应 于 (w, 外 ) 和 


(w', 如 ) 使 得 问题 的 不 等 式 等 号 成 立 的 点 ， 则 由 如 = 一 (wi +W 动 ， pe 
-7 +: 区， 得 

全 -有 = 区 + 区 
又 因为 


+ 下 过 1 二 
W + 有 过 1= 了 从. 允 + 天 


所 以 ， 办 .对 - 鸡 )=0. 同 理 有 W .Cd 区 =0. 因此 ， 
全 -总 =0 


由 城 = 城 和 有 = 有 可知， 两 个 最 优 解 (WwW, 如 ) 和 ( 民 , 避 ) 是 相同 的 ， 解 的 唯一 性 
得 证 . 
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由 问题 (7.13) ~ (7.14) 解 的 唯一 性 即 得 分 离 超 平面 是 唯一 的 . 
(3) 分 离 超 平面 能 将 训练 数据 集中 的 两 类 点 完全 正确 地 分 开 . 
由 解 满 足 问题 的 约束 条 件 即 可 得 知 . 四 


3， 支 持 向 量 和 间隔 边界 


在 线性 可 分 情况 下 , 训练 数据 集 的 样本 点 中 与 分 离 超 平面 距离 最 近 的 样本 点 
的 实例 称 为 支持 向 量 (support vector). 支持 向 量 是 使 约束 条 件 式 (7.14) 等 号 成 立 


的 点 ， 即 
p(w:x+b)-1=0 


对 =+1 的 正 例 点 ， 支 持 向 量 在 超 平 面 
Hi:w:.x+b=1 

上 ， 对 y= 一 1 的 负 例 点 ， 支 持 向 量 在 超 平面 
H,:w.x+b=-l 


上 . 如 图 7.3 所 示 ， 在 及 入 ,上 的 点 就 是 支持 向 量 . 





图 7.3 支持 向 量 


注意 到 用 和 ,平行 ,并 且 没 有 实例 点 落 在 它们 中 间 . 在 于 ,与 及 ,之 间 形成 
一 条 长 带 ， 分 高 超 平面 与 它们 平行 且 位 于 它们 中 央 . 长 带 的 宽度 ， 即 及 与 太 , 之 


间 的 距离 称 为 间隔 margin)， 间 隔 依赖 于 分 离 超 平面 的 法 向 量 w， 等 于 -2 _ 


el 
HH 和 HH, 称 为 间隔 边界 . 

在 决定 分 离 超 平面 时 只 有 支持 向 量 起 作用 ， 而 其 他 实例 点 并 不 起 作用 . 如 果 
移动 支持 向 量 将 改变 所 求 的 解 ; 但 是 如 果 在 间隔 边界 以 外 移动 其 他 实例 点 ， 甚 至 
去 掉 这 些 点 ， 则 解 是 不 会 改变 的 ， 由 于 支持 向 量 在 确定 分 离 超 平面 中 起 着 决定 性 
作用 ， 所 以 将 这 种 分 类 模型 称 为 支持 向 量 机 .支持 向 量 的 个 数 一 般 很 少 ， 所 以 支 
持 向 量 机 由 很 少 的 “重要 的 ”训练 样本 确定 . 
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例 7.1 数据 与 例 2.1 相同 . 已 知 一 个 如 图 7.4 所 示 的 训练 数据 集 ， 其 正 例 点 
是 =(3,3)"，xw = (43)7 ， 负 例 点 是 妨 = (DT5 ， 试 求 最 大 间隔 分 离 超 平面 . 


x(D 





oii 6 xD 
图 7.4 间隔 最 大 分 离 超 平面 示例 


解 “按照 算法 7.1， 根 据 训练 数据 集 构造 约束 最 优化 问题 : 
20% +t) 
St. 3w+3w,+b>1 
4m 十 3W +b>1 
-wm-w -b>1 
求 得 此 最 优化 问题 的 解 w = -=> ，0= -2 .于 是 最 大 间隔 分 离 超 平面 为 


Lao+lxm_20 
2 2 


其 中 ， =(3,3)" 与 x =(1,1)" 为 支持 向 量 . 中 
7.1.4 ”学习 的 对 偶 算 法 


为 了 求解 线性 可 分 支持 向 量 机 的 最 优化 问题 (7.13) 一 (7.14)， 将 它 作为 原始 
最 优化 问题 ， 应 用 拉 格 朗 日 对 偶 性 〈 参 阅 附 录 C)， 通 过 求解 对 偶 问 题 (dual 
problem) 得 到 原始 问题 (primal problem) 的 最 优 解 ， 这 就 是 线性 可 分 支持 向 量 
机 的 对 偶 算 法 〈dual algorithm). 这 样 做 的 优点 ， 一 是 对 偶 问题 往往 更 容易 求解 ， 
二 是 自然 引入 核 函 数 ， 进 而 推广 到 非 线性 分 类 问题 . 

首先 构建 拉 格 朗 日 函数 (Lagrange function). 为 此 , 对 每 一 个 不 等 式 约束 (7.14) 
引进 拉 格 朗 日 乘 子 (Lagrange multiplier) w > 0，i=12,…,N， 定义 拉 格 朗 日 函数 : 


Zwb0)=T lw Faw +D)+Y a (7.18) 
和 1 ji=1 
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其 中 ，w= (aa,0,…,aw) 为 拉 格 朗 日 乘 子 向 量 . 
根据 拉 格 朗 日 对 偶 性 ， 原 始 问题 的 对 偶 问题 是 极 大 极 小 问题 : 


max min L(w,b,0) 


所 以 , 为 了 得 到 对 偶 问 题 的 解 ， 需要 先 求 L(w,b,0) 对 w,b 的 极 小 , 再 求 对 ex 的 极 大 . 
《1) 求 minL(w,b,a) 
将 拉 格 朗 日 函数 L(w,b,Q) 分 别 对 w,b 求 偏 导数 并 令 其 等 于 0. 


Ny 
VL(w,b,0)=w— Poyn =0 
El 


N 
VLw,b,0)= ,0y, =0 
i=] 


得 
w= Pay (7.19) 
i1=] 
Yay=0 (7.20) 


i=l 
将 式 (7.19) 代入 拉 格 朗 日 函数 (7.18)， 并 利用 式 (7.20)， 即 得 
NN 
L(w,b,0) -= 六 app 1) -ay, (ge) 9] 
i=l j= i=] f=1 


ey 


1 NN 草 -。 
=-32 G0) + 0 
Pe 沁 


1 < N 
min Lowb,0)=-7 2 0 x) + D0 
” tl j=l f=1 


(2) 求 min ZL(w,b,2) 对 的 极 大 ， 即 是 对 偶 问题 


1 NN NN 
max -3 2 Yo ) + 0 (21) 
a 沁 
N 
Sst. ay =0 
i=] 


@ >0, i=12,N 


将 式 (7.21) 的 目标 函数 由 求 极 大 转换 成 求 极 小 ， 就 得 到 下 面 与 之 等 价 的 对 侦 
最 优化 问题 : 
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和 A . N 
min 72 P00 ) -De 07.22) 
be 2 气 fl 和 1 
st. > ay =0 (7.23) 
i=] 
@ 0, i=L2,%,N (7.24) 


考虑 原始 最 优化 问题 (7.13) ~ (7.14) 和 对 偶 最 优化 问题 (7.22) ~ (7.24)， 原 
始 问题 满足 定理 C.2 的 条 件 ， 所 以 存在 w',e*,P"， 使 w' 是 原始 问题 的 解 ，@*,p* 
是 对 偶 问题 的 解 ， 这 意味 着 求解 原始 问题 (7.13) ~ (7.14) 可 以 转换 为 求解 对 偶 问 
题 (7.22) 一 (7.24). 

对 线性 可 分 训练 数据 集 ， 假 设 对 偶 最 优化 问题 (7.22) ~ (7.24) 对 c 的 解 为 
2 = (0 ,0295Qw )， 可 以 由 er 求 得 原始 最 优化 问题 (7.13) ~ (7.14) 对 (w,b) 的 
解 w',b". 有 下 面 的 定理 . 

定理 72 设 w*=(@,0@;,…,0))" 是 对 偶 最 优化 问题 (7.22) 一 (7.24) 的 解 ， 则 
存在 下 标 j， 使 得 @; > 0， 并 可 按 下 式 求 得 原始 最 优化 问题 (7.13) ~ (7.14) 的 解 


w',b’: 
N 
w= 0 yn (7.25) 
i=] 
Vy 
b=y, -oyex)) (7.26) 
和 1 
证 明 根据 定理 C.3，KKT 条 件 成 立 ， 即 得 
VLOW',b' ,0 ) =w -Yay =0 (7.27) 
tel 
VL(Ww',b’,0)= -ay =0 
i=l 


oAW th)-D)=0, i=1,2,,N 

PW eR+b) -1>0, i=L,2,N 

0 0, i=1,2,N 
由 此 得 

Ww =Foy 
其 中 至 少 有 一 个 @* > 0 (用 反 证 法 , 假设 or =0, 由 式 (7.27) 可 知 =0, 而 w =0 
不 是 原始 最 优化 问题 (7.13) ~ (7.14) 的 解 ， 产 生 矛 盾 )， 对 此 了 有 
pwrx+b")-1=0 (7.28) 
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将 式 (7.25) 代入 式 (7.28) 并 注意 到 y=1， 即 得 


b= -D0 ye%) 和 
i=} 
由 此 定理 可 知 ， 分 离 超 平面 可 以 写成 
Fain)+b =0 (29) 
il 
分 类 决策 函数 可 以 写成 
x 
f(x%)= sen (So p(X)+ 5] (7.30) 
i=] 


这 就 是 说 ， 分 类 决策 函数 只 依赖 于 输入 x 和 训练 样本 输入 的 内 积 . 式 (7.30) 称 为 
线性 可 分 支持 向 量 机 的 对 偶 形 式 . 

综 上 所 述 ， 对 于 给 定 的 线性 可 分 训练 数据 集 ， 可 以 首先 求 对 偶 问 题 (7.22) 一 
(7.24) 的 解 we ; 再 利用 式 (7.25) 和 式 (7.26) 求 得 原始 问题 的 解 w',b" ， 从 而 得 到 
分 离 超 平面 及 分 类 决策 函数 .这 种 算法 称 为 线性 可 分 支持 向 量 机 的 对 偶 学 习 算 法 ， 
是 线性 可 分 支持 向 量 机 学 习 的 基本 算法 . 

算法 7.2〈 线 性 可 分 支持 向 量 机 学 习 算法 

输入 : 线性 可 分 训练 集 了 = {C6) 攻 ) Co, 力 ) (twsyw)}, 其 中 厂 E 光 = 有 RE 
y={- b+l}, i=1,2,,N; 

输出 : 分 离 超 平面 和 分 类 决策 函数 . 

(1) 构造 并 求解 约束 最 优化 问题 


1 NN. LA 
min 2200 py) -Yo 
3 洒 
a 
st. >w y=0 
w >0，i=12…,N 
求 得 最 优 解 or = (ao ,ao av 三 . 
(2) 计算 
w= Fay 
=] 
并 选择 or 的 一 个 正 分 量 w >0， 计算 


N 
BD =» -0 yn) 
i 
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《3) 求 得 分 离 超 平面 
W x+ 及 =0 
分 类 决策 函数 : 
f(x)=sign(w .x+b") m 

在 线性 可 分 支持 向 量 机 中 ， 由 式 (7.25)、 式 (7.26) 可 知 ，w 和 只 依赖 于 训 
练 数据 中 对 应 于 4" >0 的 样本 点 (xi, 芒 ) ， 而 其 他 样本 点 对 w 和 没有 影响 .我 
们 将 训练 数据 中 对 应 于 ow* > 0 的 实例 点 xe R" 称 为 支持 向 量 . 

定义 7.4 (支持 向 量 ) 考虑 原始 最 优化 问题 (7.13) ~ (7.14) 及 对 偶 最 优化 问 
题 (7.22) 一 (7.24)， 将 训练 数据 集中 对 应 于 w" > 0 的 样本 点 (x,,y) 的 实例 Xe R” 
称 为 支持 向 量 . 


根据 这 一 定义 ， 支 持 向 量 一 定 在 间隔 边界 上 . 由 KKT 互补 条 件 可 知 ， 
OW +D)-D=0，i=12N 
对 应 于 Qa" >0 的 实例 x,， 有 
pw :+b)-1=0 





或 
wx +b" =+l 
即 % 一 定 在 间隔 边界 上 . 这 里 的 支持 向 量 的 定义 与 前 面 给 出 的 支持 向 量 的 定义 是 
一 致 的 . 
例 7.2 训练 数据 与 例 7.1 相同 .如 图 7.4 所 示 , 正 例 点 是 x =(3,3)"，, x, = (4,3)7， 
负 例 点 是 x =(1,1)"， 试 用 算法 7.2 求 线性 可 分 支持 向 量 机 . 
解 ”根据 所 给 数据 ， 对 偶 问题 是 


机 NN N 
min 3 my) -D0 
t=] j=l i=l 


= 80 +2508 +208 +4200% ~12040 -140000) -0 ~ 0 ~ 
St. tO- =0 
0 >0, i=1,2,3 


解 这 一 最 优化 问题 .将 =Q + 代入 目标 函数 并 记 为 
S00%) = 408 + E08 +1000% ~20 -2 
工 
对 woo 求 偏 导数 并 令 其 为 0， 易 知 sa ou) 在 点 [3 取 极 值 ， 但 该 点 不 满足 
约束 条 件 o > 0 ， 所 以 最 小 值 应 在 边界 上 达到 . 
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1 1 
当 w =0 时 ， 最 小 值 :(0 襄 ]=- 襄 : 当 w =0 时 ， 最 小 值守 0]=-- 于 
1 
这 样 ，@ = 人 = 二 对 应 的 实例 点 ,是 支持 向 量 ， 根 据 式 (725) 和 式 (726) 


计算 得 


是 s(@,05) 在 = =0 达 到 最 小 ， 此 时 =0 + 0 = 


分 离 超 平面 为 


工 xz 十 上 xz -2=0 
2 2 


分 类 决策 函数 为 
f(x) =sign (3*° + 了 -2] . 
对 于 线性 可 分 问题 ,上述 线性 可 分 支持 向 量 机 的 学 习 ( 硬 间隔 最 大 化 ) 算法 是 
完美 的 ， 但是， 训练 数据 集 线 性 可 分 是 理想 的 情形 . 在 现实 问题 中 ， 训 练 数据 集 往 
往 是 线性 不 可 分 的 , 即 在 样本 中 出 现 噪声 或 特异 点 . 此 时 ， 有 更 一 般 的 学 习 算法 . 


7.2 ”线性 支持 向 量 机 与 软 间隔 最 大 化 


7.2.1 ”线性 支持 向 量 机 


线性 可 分 问题 的 支持 向 量 机 学 习 方 法 , 对 线性 不 可 分 训练 数据 是 不 适用 的 , 因 
为 这 时 上 述 方 法 中 的 不 等 式 约束 并 不 能 都 成 立 . 怎么 才能 将 它 扩展 到 线性 不 可 分 
问题 呢 ? 这 就 需要 修改 硬 间隔 最 大 化 ， 使 其 成 为 软 间 隔 最 大 化 . 

假设 给 定 一 个 特征 空间 上 的 训练 数据 集 


T={05,7), C5, ),%, xn py)} 


其 中 ，xe X=R"，ye y={t1-D}，i=12,…,N ， 尺 为 第 i 个 特征 向 量 ，y 为 
的 类 标记 . 再 假设 训练 数据 集 不 是 线性 可 分 的 . 通常 情况 是 ， 训 练 数据 中 有 一 
些 特异 点 〈outlier)， 将 这 些 特异 点 除去 后 ， 剩 下 大 部 分 的 样本 点 组 成 的 集合 是 线 
性 可 分 的 . 

线性 不 可 分 意味 着 某 些 样本 点 (%, 世 ) 不 能 满足 函数 间隔 大 于 等 于 1 的 约束 条 
件 (7.14). 为 了 解决 这 个 问题 , 可 以 对 每 个 样本 点 (x,y,) 引进 一 个 松弛 变量 6 之 0， 
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使 函数 间隔 加 上 松弛 变量 大 于 等 于 1. 这 样 ， 约 束 条 件 变 为 
p(w i+h)>>1-t 


同时 ， 对 每 个 松弛 变量 区， 支付 一 个 代价 避 . 目标 本 数 由 原来 的 wIP 变 成 


了 e+Cy 03D 

这 里 ，C >0 称 为 生 罚 参数 ， 一 般 由 应 用 问题 决定 ，C 值 大 时 对 误 分 类 的 惩罚 增 

大 , C 什 小 时 对 误 分 类 的 和 加 减 小 .最 小 化 目标 数 (731) 包含 两 层 信义 :使 wlP 
尽 地 小 即 间隔 尽量 大 ， 同 时 使 误 分 类 点 的 个 数 尽量 小 ，C 是 调和 二 者 的 系数 . 

有 了 上 面 的 思路 ,可 以 和 训练 数据 集 线 性 可 分 时 一 样 来 考虑 训练 数据 集 线 性 不 

可 分 时 的 线性 支持 向 量 机 学 习 问题 . 相应 于 硬 问 隔 最 大 化 , 它 称 为 软 间隔 最 大 化 . 


线性 不 可 分 的 线性 支持 向 量 机 的 学 习 问 题 变 成 如 下 凸 二 次 规划 〈convex 
quadratic programming) 问题 〈 原 始 问题 ): 


1 t 
my lw +C26 (7.32) 

ht i=l 
St (w+ 站 二 1- 各，i=12…,N (7.33) 
去 >0，i=12…,N (7.34) 


原始 问题 (7.32) ~ (7.34) 是 一 个 凸 二 次 规划 问题 , 因而 关于 (wb, 的 解 是 存 
在 的 ,可 以 证 明 w 的 解 是 唯一 的 ， 但 b 的 解 不 唯一 ，4 的 解 存在 于 一 个 区 间 中 1. 

设 问题 (7.32) ~ (7.34) 的 解 是 w'，4b*, 于 是 可 以 得 到 分 离 超 平面 w' .x+b* =0 
及 分 类 决策 函数 f(x) = sign(w .x+b") ， 称 这 样 的 模型 为 训练 样本 线性 不 可 分 时 
的 线性 支持 向 量 机 ， 简 称 为 线性 支持 向 量 机 . 显然， 线性 支持 向 量 机 包含 线性 可 
分 支持 向 量 机 . 由 于 现实 中 训练 数据 集 往往 是 线性 不 可 分 的 ， 线 性 支持 向 量 机 具 
有 更 广 的 适用 性 . 

下 面 给 出 线性 支持 向 量 机 的 定义 . 

定义 7,5 (线性 支持 向 量 机 ) ”对 于 给 定 的 线性 不 可 分 的 训练 数据 集 , 通过 求 
解 凸 二 次 规划 问题 ， 即 软 间隔 最 大 化 问题 (7.32) ~ (7.34)， 得 到 的 分 离 超 平面 为 


w .x+b’.=0 (7.35) 
以 及 相应 的 分 类 决策 函数 
f(x)=sign(w' .x+b") (7.36) 
称 为 线性 支持 向 量 机 . 


110 第 7 章 支持 向 量 机 





7.2.2 ”学 习 的 对 偶 算 法 
原始 问题 (7.32) ~ (7.34) 的 对 偶 问 题 是 


6 1 NN N 
min 32 200) -Yo 
i131 jl il 
wy 
st Day=0 
i=] 


0<a <C, i=1,2,%,N 


原始 最 优化 问题 (7.32) ~ (7.34) 的 拉 格 朗 日 函数 是 


Lob m= w+ 1 


其 中 ，@& 0,4 宇 0. 


(7.37) 


(7.38) 


(7.39) 


(7.40) 


对 侦 问 题 是 拉 格 朗 日 函数 的 极 大 极 小 问题 ,首先 求 L(w,b,,Q,4) 对 wb 的 


极 小 ， 由 





V,L(w,b,é,0,1) = wa = 


VL(w,b,6, 0, 1) =-Yoy, =0 
i=] 
VasL(w,b,S,0,4)=C—0 -HK,=0 


芽 


VN 
w= ,0 
a 和 =1 
Za =0 
{=1 
C-@-h=0 
将 式 (7.41) ~ (7.43) 代入 式 (7.40)， 得 
mig L(wb,s,0, 4) = -a pip) (hx +a 
再 对 migL(w,b,6,0,4) 求 0 的 极 大 ， 即 得 对 侦 问题 : 


1 NN NV 
max 32) + 
i jl El 


(07.41) 
(7.42) 


(7.43) 


(7.44) 
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y 
st Yay=0 (7.45) 
i=1 
C-w-A=0 (7.46) 
0>0 (7.47) 
HW0, i=1,2,N (7.48) 


将 对 偶 最 优化 问题 (7.44) ~ (7.48) 进行 变换 : 利用 等 式 约束 (7.46) 消去 44， 

从 而 只 留 下 变量 wx ， 并 将 约束 (7.46) 一 (7.48) 写成 
0<w<C (7.49) 

再 将 对 目标 函数 求 极 大 转换 为 求 极 小 ， 于 是 得 到 对 偶 问 题 (7.37) ~ (7.39) . 

可 以 通过 求解 对 偶 问 题 而 得 到 原始 问题 的 解 ， 进 而 确定 分 离 超 平 面 和 决策 函 
数 . 为 此 ， 就 可 以 定理 的 形式 叙述 原始 问题 的 最 优 解 和 对 偶 问 题 的 最 优 解 的 关系 ， 

定理 7.3 设 o =(o ,0 av 并 是 对 偶 问 题 (7.37) 一 (7.39) 的 一 个 解 ， 若 
存在 or 的 一 个 分 量 w "，0<w” <C， 则 原始 问题 (7.32) 一 (7.34) 的 解 w',b" 可 按 
下 式 求 得 : 


w= Yarys, (7.50) 
isl 

Ny 
b=y, -yo (xx)) (7.51) 

ie1 

证 明 ”原始 问题 是 凸 二 次 规划 问题 ， 解 满足 KKT 条 件 . 即 得 
VLW ,bE ,0 )= Ww -Yo yx=0 (7.52) 
t= 


N. 
VLOW ,bE ,0 )= -> 0 y=0 
i=] 
VeL(W,b' ,E00 )=C-0 -1 =0 


OVW Ntb)-1+6)=0 (7.53) 


Mi =0 (7.54) 
yw x t+b)-1l+E >0 

会 >0 

oo 0 


他 人 0，i=12 


112 第 7 章 支持 向 量 机 





由 式 (7.52) 易 知 式 (7.50) 成 立 ， 再 由 式 (7.53) 一 (7.54) 可 知 ， 若 存在 ， 


0<a <C,， 则 (0w .六 + 因 )-1=0. 由 此 即 得 式 (7.51). ] 
由 此 定理 可 知 ， 分 离 超 平面 可 以 写成 
Farpea) tp =0 (7.55) 
和 
分 类 决策 函数 可 以 写成 
/9=sien (Fair +t] (7.56) 
1 


式 (7.56) 为 线性 支持 向 量 机 的 对 偶 形 式 . 

综合 前 面 的 结果 ， 有 下 面 的 算法 . 

算法 7.3〔 线 性 支持 向 量 机 学 习 算 法 ) 

输入 : 训练 数据 集 了 = {6,7),(%,)…,(xysyw)}， 其 中 ,， xe XX=R",， ye 
y={ ,+l}, i=L2,,N; 

输出 : 分 离 超 平面 和 分 类 决策 函数 . 

(1) 选择 惩罚 参数 C > 0 ， 构 造 并 求解 凸 二 次 规划 问题 


和 1 NN N 
min F320 p05) -Yo 
i=l j= t=1 


Sst. Say, =0 

0 < C，i=12…,N 
求 得 最 优 解 o = (oa ,oaw") 
(2) 计算 wW Yorys 
选择 cx 的 一 个 分 有 0 适合 条 件 0<o” <C， 计算 

b=y, -Sy x) 
(3) 求 得 分 离 超 平面 - 

wx+b'=0 

分 类 决策 函数 : 

f(x)=sign(w’ .x+b") 中 


步骤 (2) 中 ， 对 任 一 适合 条 件 0<Q* <C 的 wy， 按 式 (7.51) 都 可 求 出 br 但 是 由 
于 原始 问题 (7.32) ~ (7.34) 对 5 的 解 并 不 唯一 中， 所 以 实际 计算 时 可 以 取 在 所 有 
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符合 条 件 的 样本 点 上 的 平均 值 . 


7.2.3 ”支持 向 量 


在 线性 不 可 分 的 情况 下 ， 将 对 偶 问题 (7.37) 一 (7.39) 的 解 or =(@, 0 ,…,0% 
中 对 应 于 @&* >0 的 样本 点 (%,y) 的 实例 x, 称 为 支持 向 量 ( 软 间隔 的 支持 向 量 ). 如 
图 7.5 所 示 ， 这 时 的 支持 向 量 要 比 线性 可 分 时 的 情况 复杂 一 些 ， 图 中 ， 分 离 超 平 
面 由 实 线 表示 , 间隔 边界 由 虚线 表示 ， 区 ”表示 , 负 例 点 由 “x ”表示 . 图 


中 还 标 出 了 实例 把 到 癌 了 边界 的 中 离 人 











图 7.5 软 间隔 的 支持 向 量 


软 间隔 的 支持 向 量 x 或 者 在 间隔 边界 上 ， 或 者 在 间隔 边界 与 分 离 超 平面 之 
间 ， 或 者 在 分 离 超 平面 误 分 一 侧 .车 or <C ， 则 点 =0， 支 持 向 量 % 恰好 落 在 间 
隔 边 界 上 ; 车 =C，0< 纪 <1， 则 分 类 正确 ，x 在 间隔 边界 与 分 离 超 平面 之 间 ; 
车 a =C ， 点 =1， 则 在 分 离 超 平面 上 ; 若 o =C， 睛 >1， 则 x 位 于 分 离 超 
平面 误 分 一 侧 . 


7.2.4 合 页 损失 函数 


对 于 线性 支持 向 量 机 学 习 来 说 ， 其 模型 为 分 离 超 平面 w'.x+b* =0 及 决策 函 
数 了 (x)=sign(w' .x+6")， 其 学 习 策略 为 软 间隔 最 大 化 ， 学 习 算法 为 凸 二 次 规划 . 
线性 支持 向 量 机 学 习 还 有 另外 一 种 解释 ， 就 是 最 小 化 以 下 目标 函数 ; 





Fh- Cw +b)], +4l wl (7.57) 
1 


目标 函数 的 第 1 项 是 经 验 损失 或 经 验 风险 ， 函 数 
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LOyCwex+D)) =[1— ywx+b)], (7.58) 
称 为 合 页 损失 函数 (hinge loss function)， 下 标 “ 十 ”表示 以 下 取 正 值 的 函数 . 
z>0 
[也 -全 Ba (7.59) 


这 就 是 说 ， 当 样本 点 (x,y) 被 正确 分 类 且 函 数 间隔 确信 和 度 )》 久 (wx +b) 大 于 1 

时 ,损失 是 0， 否 则 损失 是 1-y(w.x,+5)， 注 意 到 在 图 7.5 中 的 实例 点 zx 被 正确 

分 类 , 但 损失 不 是 0. 目标 函数 的 第 2 项 是 系数 为 和 的 w 的 三 范 数 ,是 正则 化 项 ， 
定理 7.4 线性 支持 向 量 机 原始 最 优化 问题 : 





N 
we dv +cYs 060) 
St p(wAth)1-E, i=1,2..,N (7.61) 
E>0, i=1,2,N (7.62) 
等 价 于 最 优化 问题 

N 
min PL-ywn+b)], +4l wl (7.63) 

i=} 


证 明 可 将 最 优化 问题 (7.63) 写成 问题 (7.60) ~ (7.62). 令 
1l-y(wx%+b)=6, G0 (7.64) 
则 义 (w%+b) 宇 1， 于 是 w,b, 纪 满足 约束 条 件 (7.61) ~ (7.62)， 由 式 (7.64) 有 ， 
[~y(wex+b)], =[ 台 1, = 所 ， 所 以 最 优化 问题 (7.63) 可 写成 
mh Ds tw 


ls 
若 取 4=5C， 则 
min Siwr +Cy 5 
CN\2 Ey l 
与 式 (7.60) 等 价 . 
反之 ， 也 可 将 最 优化 问题 (7.60) ~ (7.62) 表示 成 问题 (7.63). 站 


合 页 损失 函数 的 图 形 如 图 7.6 所 示 ， 横 轴 是 函数 间隔 y(w.x+5b)， 纵 轴 是 损 
失 ， 由 于 函数 形状 像 一 个 合 页 ， 故 名 合 页 损失 函数 . 

图 中 还 画 出 0-1 损失 函数 ， 可 以 认为 它 是 二 类 分 类 问题 的 真正 的 损失 函数 ， 而 
合 页 损失 函数 是 0-1 损失 函数 的 上 界 ， 由 于 0-1 损失 函数 不 是 连续 可 导 的 ， 直 接 
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优化 由 其 构成 的 目标 函数 比较 困难 ， 可 以 认为 线性 支持 向 量 机 是 优化 由 0-1 损失 
函数 的 上 界 〈 合 页 损失 函数 ) 构成 的 目标 函数 . 这 时 的 上 界 损失 函数 又 称 为 代理 
损失 函数 〈surrogate loss function). 





(00) (1,0) 函数 间隔 y(w-x+5) 
图 7.6 合 页 损失 函数 


图 7.6 中 虚线 显示 的 是 感知 机 的 损失 函数 [D (w.x + 如],. 这 时 , 当 样本 点 (xy ) 
被 正确 分 类 时 ， 损 失 是 0， 否 则 损失 是 -y,(w.x, +b)， 相 比 之 下 ， 合 页 损失 函数 
不 仅 要 分 类 正确 ， 而 且 确 信 度 足够 高 时 损失 才 是 0。 也 就 是 说 ， 合 页 损失 函数 对 
学 习 有 更 高 的 要 求 


7.3 非 线性 支持 向 量 机 与 核 画 数 


对 解 线性 分 类 问题 ， 线 性 分 类 支持 向 量 机 是 一 种 非常 有 效 的 方法 . 但 是 ， 有 
时 分 类 问题 是 非 线性 的 ， 这 时 可 以 使 用 非 线性 支持 向 量 机 .本 节 叙 述 非 线性 支持 
向 量 机 ， 其 主要 特点 是 利用 核 技巧 (kernel trick). 为 此 ， 先 要 介绍 核 技巧 , 核 技 
巧 不 仅 应 用 于 支持 向 量 机 ， 而 且 应 用 于 其 他 统计 学 习 问 题 . 


7.3.1 核 技巧 


1， 非 线性 分 类 问题 

非 线 性 分 类 问题 是 指 通过 利用 非 线性 模型 才能 很 好 地 进行 分 类 的 问题 . 先 看 
一 个 例子 : 如 7.7 左 图 ， 是 一 个 分 类 问题 ， 图 中 “. ”表示 正 实例 点 ,，“x ”表示 负 
实例 点 .由 图 可 见 ， 无 法 用 直线 (线性 模型 ) 将 正 负 实例 正确 分 开 ， 但 可 以 用 一 
条 椭圆 曲线 〈 非 线性 模型 ) 将 它们 正确 分 开 . 

一 般 来 说 ， 对 给 定 的 一 个 训练 数据 集 7 = {x%,),(%,y)…,(xw,py}， 其 中 ， 
实例 属于 输入 空间 ，xe =R"， 对 应 的 标记 有 两 类 ye y={1,+l}，i=1 
2…,N. 如 果 能 用 了 "中 的 一 个 超 曲面 将 正 负 例 正确 分 开 ， 则 称 这 个 问题 为 非 线 
性 可 分 问题 . 
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图 7.7 非 线性 分 类 问题 与 核 技 巧 示例 


非 线 性 问题 往往 不 好 求解 ， 所 以 希望 能 用 解 线性 分 类 问题 的 方法 解决 这 个 问 
题 . 所 采取 的 方法 是 进行 一 个 非 线性 变换 ,将 非 线性 问题 变换 为 线性 问题 , 通过 解 
变换 后 的 线性 问题 的 方法 求解 原来 的 非 线性 问题 ， 对 图 7.7 所 示 的 例子 ， 通 过 变 
换 , 将 左 图 中 椭圆 变换 成 右 图 中 的 直线 , 将 非 线性 分 类 问题 变换 为 线性 分 类 问题 . 

设 原 空间 为 < R',x=(x 中 ,x 中 )"e 计 ,新 空间 为 Zc R’, z= (z0,z2)7e 了， 
定义 从 原 空间 到 新 空间 的 变换 (映射 ); 


z=0(%)=((x"), (x0) 


经 过 变换 z= p(x) ， 原 空间 CR? 变换 为 新 空间 ZcR?*， 原 空间 中 的 点 相应 地 
变换 为 新 空间 中 的 点 ， 原 空间 中 的 椭圆 
w(x PF+w(x +b=0 
变换 成 为 新 空间 中 的 直线 
.Wz +wz +b=0 

在 变换 后 的 新 空间 里 ， 直 线 wz + Wwz2) +6=0 可 以 将 变换 后 的 正 负 实例 点 正确 
分 开 . 这 样 ， 原 空间 的 非 线 性 可 分 问题 就 变 成 了 新 空间 的 线性 可 分 问题 . 

上 面 的 例子 说 明 ， 用 线性 分 类 方法 求解 非 线性 分 类 问题 分 为 两 步 : 首先 使 用 
一 个 变换 将 原 空间 的 数据 映射 到 新 空间 ; 然后 在 新 空间 里 用 线性 分 类 学 习 方 法 从 
训练 数据 中 学 习 分 类 模型 . 核 技巧 就 属于 这 样 的 方法 . 

核 技巧 应 用 到 支持 向 量 机 ,其 基本 想法 就 是 通过 一 个 非 线性 变换 将 输入 空间 
( 欧 氏 空间 R" 或 离散 集合 ) 对 应 于 一 个 特征 空间 ( 希 尔 伯 特 空间 XH )， 使 得 在 输 
入 空间 R” 中 的 超 曲 面 模 型 对 应 于 特征 空间 X 中 的 超 平面 模型 (支持 向 量 机 ). 这 
样 ， 分 类 问题 的 学 习 任 务 通过 在 特征 空间 中 求解 线性 支持 向 量 机 就 可 以 完成 . 


2， 核 函数 的 定义 
定义 7.6〈 核 函数 ) 设 是 输入 空间 ( 欧 氏 空间 R” 的 子 集 或 离散 集合 ), 又 
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设 允 为 特征 空间 希 尔 伯 特 空间 )， 如 果 存 在 一 个 从 到 大 的 映射 


gz: 元 一 (7.65) 
使 得 对 所 有 x,ze 七， 函数 KK(x,z) 满足 条 件 
K(x,z)=G(x) "9(z) (7.66) 


则 称 天 (zx,z) 为 核 函 数 ， 克 2 为 映射 函数 ， 式 中 G(x).G(z) 为 B(x) 和 Ylz) 的 内 积 ， 


核 技巧 的 想法 是 , 在 学 习 与 预测 中 只 定义 核 函 数 K(x,z) ， 而 不 显 式 地 定义 映 
射 函 数 g ， 通常， 直接 计算 K(x,z) 比较 容易 ， 而 通过 9(x) 和 9(z) 计算 K(x,z) 并 
不 容易 . 注意 ， 乡 是 输入 空间 R" 到 特征 空间 7t 的 映射 ， 特 征 空间 一般 是 高 维 
的 ， 甚 至 是 无 穷 维 的 ， 可 以 看 到 ， 对 于 给 定 的 核 K(x,z) ， 特 征 空间 XH 和 映射 函 
数 g 的 取 法 并 不 唯一 ， 可 以 取 不 同 的 特征 空间 ， 即 便 是 在 同一 特征 空间 里 也 可 以 
取 不 同 的 映射 、 

下 面 举 一 个 简单 的 例子 来 说 明 核 函数 和 映射 函数 的 关系 . 

例 7.3 ”假设 输入 空间 是 R*， 核 函数 是 K(x,z) =(x.z) ， 试 找 出 其 相关 的 特 
征 空间 多 和 映射 8(x):R? 一 X. 

解 ” 取 特征 空间 X=R?， 记 x=(xzo,xo)7，z=(20,z2)7， 由 于 


(2 二 (xzo)z0 十 2% Et: x20 +2x V2 Vx) 人 (x) 
所 以 可 以 取 映 射 
(x) =((x0), V2x0. x , xO) 


容易 验证 G(x).G(z)=(x:2)* =K(x,2). 
仍 取信 =R: 以 及 
G(x) = 广 Co 和 (x ,2x0x® ,x + (x® 和 y 
同样 有 (x) .9(z)=(x.2) =K(x,z). 
还 可 以 取 K=R* 和 


Gx) = (CeO), x Vx®, x Vx, (x )) . 


3， 核 技巧 在 支持 向 量 机 中 的 应 用 


我 们 注意 到 在 线性 支持 向 量 机 的 对 偶 问 题 中 , 无论 是 目标 函数 还 是 决策 函数 
〈 分 离 超 平面 ) 都 只 涉及 输入 实例 与 实例 之 间 的 内 积 . 在 对 偶 问 题 的 目标 函数 
(7.37) 中 的 内 积 的 ,5 可 以 用 核 函 数 K(%,,x,)=9(%).G(x)) 来 代替 ， 此 时 对 侦 问 题 
的 目标 函数 成 为 


118 第 7 章 支持 向 量 机 





NN N 
W(@)= 了 >aw yy Ks,x) -Yo (7.67) 
气 气 气 
同样 ， 分 类 决策 函数 中 的 内 积 也 可 以 用 核 函数 代替 ， 而 分 类 决策 函数 式 成 为 
f(x)=sign 2 VG) Gx) + #] =sign E aiyK(%,7) + (7.68) 


这 等 价 于 经 过 映射 函数 少将 原来 的 输入 空间 变换 到 一 个 新 的 特征 空间 ， 将 输 
入 空间 中 的 内 积 羽 'z 变换 为 特征 空间 中 的 内 积 Y%).G(x,)， 在 新 的 特征 空间 里 
从 训练 样本 中 学 习 线 性 支持 向 量 机 . 当 映 射 函 数 是 非 线性 函数 时 ， 学 习 到 的 含有 
核 函数 的 支持 向 量 机 是 非 线性 分 类 模型 . 

也 就 是 说 , 在 核 函 数 K(x,z) 给 定 的 条 件 下 ,可 以 利用 解 线性 分 类 问题 的 方法 
求解 非 线 性 分 类 问题 的 支持 向 量 机 . 学 习 是 隐 式 地 在 特征 空间 进行 的 ， 不 需要 显 
式 地 定义 特征 空间 和 映射 函数 . 这样 的 技巧 称 为 核 技巧 ， 它 是 巧妙 地 利用 线性 分 
类 学 习 方法 与 核 函数 解决 非 线 性 问题 的 技术 , 在 实际 应 用 中 ， 往 往 依赖 领域 知识 
直接 选择 核 函 数 ， 核 函数 选择 的 有 效 性 需要 通过 实验 验证 . 


7.3.2 ”正定 核 


已 知 映射 函数 9 ,可 以 通过 p(x) 和 9(z) 的 内 积 求 得 核 函 数 天 (x,z)， 不 用 构造 
映射 p(x) 能 否 直接 判断 一 个 给 定 的 函数 天 (x,z) 是 不 是 核 函 数 ? 或 者 说 ， 函 数 
天 (xz) 满足 什么 条 件 才能 成 为 核 函 数 ? 

本 节 叙 述 正定 核 的 充 要 条 件 ， 通 常 所 说 的 核 函 数 就 是 正定 核 函 数 〈positive 
definite kernel function)， 为 证 明 此 定理 先 介绍 有 关 的 预备 知识 ， 

假设 K(x,z) 是 定义 在 忒 x 世 上 的 对 称 函数 ， 并 且 对 任意 的 zxrne， 
天 (x,z) 关于 为 ,xX,…,x 的 Gram 甜 阵 是 半 正 定 的 . 可 以 依据 函数 K(x,z)， 构成 一 
个 希 尔 伯 特 空间 (Hilbert space), 其 步骤 是 : 首先 定义 映射 g 并 构成 向 量 空间 S ; 
然后 在 S 上 定义 内 积 构成 内 积 空间 ， 最 后 将 S 完备 化 构成 希 尔 伯 特 空间 . 


1， 定 义 映射 ， 构 成 向 量 空间 5S 





先 定义 映射 
pi:x K(x) (7.69) 
根据 这 一 映射 ， 对 任意 总 < 吉 ，w eRR，i=1,2,…,m ， 定 义 线性 组 合 
7()= 六 aaK( ax) (7.70) 
i=] 














考虑 由 线性 组 合 为 元 素 的 集合 S. 由 于 集合 S 对 加 法 和 数 乘 运算 是 封闭 的 ， 所 以 
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S 构成 一 个 向 量 空间 . 
2.， 在 S 上 定义 内 积 ， 使 其 成 为 内 积 空间 
在 S 上 定义 一 个 运算 * : 对 任意 f,geS， 


(= 立 aK(z) (7.71) 

i=] 

1 
8()=> BK(,z,) (7.72) 

i=l 

定义 运算 * 

站 所 
Jr*g. 2 0B,K(,z)) (7.73) 

i=l j=1 

证 明 运算 * 是 空间 S 的 内 积 . 为 此 要 证 : 

(1) (gf)*g=c(f *g), ceR (7.74) 
(2) (f+g)*h=f*htg*h, hes (7.75) 
(3) f*g=g*f (7.76) 
(4) f*f>0, . (0.7T) 
f*f=0Sf=0 (7.78) 


其 中 ,(1) ~ (3) 由 式 (7.70) ~ 式 (7.72) 及 KK(x,z) 的 对 称 性 容易 得 到 . 现 证 (4) 
之 式 (7.77). 由 式 (7.70) 及 式 (7.73) 可 得 : 


f*f=Y 0 K(x) 
ij=1 
由 Gram 矩阵 的 半 正 定性 知 上 式 右 端 非 负 ， 即 f* f 宕 0. 
再 证 (4) 之 式 (7.78). 充分 性 显然 . 为 证 必要 性 ， 首 先 证 明 不 等 式 ， 
17*gP<Cr*r 站 (8*r8) (7.79) 


设 /f,geS，hAeR， 则 /+hAgeS， 于 是 ， 
(f+hg)*(f +h8)>0 





f*f+2AU(f *g)+N(g*g)>0 
其 左 端 是 4 的 二 次 三 项 式 ， 非 负 ， 其 判别 式 小 于 等 于 0， 即 
Jf*gy-(f*f)ge*g)<0 
于 是 式 (7.79) 得 证 . 现 证 车 f*f=0,， 则 f=0. 事实 上 ,车 


120 第 7 章 支持 向 量 机 





/0)=PaKt,s) 
则 按 运 算 * 的 定义 式 (7.73)， 对 任意 的 xe 庆 ， 有 
KC)* /=DaKGes)= /0 

于 是 ， - 

IfCOFAKC, DAP (7.80) 
由 式 (7.79) 和 式 (7.77) 有 

IK(,x)*f PS(KG, A)* KC NF *f)= K(x, x)(f * 7) 

由 式 (7.80) 有 

IfOOPS KC, Xf * 7) 


此 式 表 明 ， 当 f*f=0 时 ， 对 任意 的 x 都 有 | f(x)|=0. 
至 此 ， 证 明了 * 为 向 量 空间 S 的 内 积 . 赋予 内 积 的 向 量 空间 为 内 积 空间 . 
此 5 是 一 个 内 积 空 间 . 既然 * 为 5 的 内 积 运算 ， 那 么 仍然 用 .表示 ， 即 若 


Ld LT 
f()=D aK(,s), g(:)=Y pK,z,) 
i=l jal 














则 
frg=$ Yop Kz) (07.81) 
生生 


3， 将 内 积 空间 5S 完备 化 为 希 尔 伯 特 空间 
现在 将 内 积 空间 3 完备 化 ， 由 式 (7.81) 定义 的 内 积 可 以 得 到 范 数 


lfN=Y7:f (7.82) 


因此 , 5 是 一 个 赋 范 向 量 空间 . 根据 泛 函 分 析 理 论 , 对 于 不 完备 的 赋 范 向 量 空间 S ， 
一 定 可 以 使 之 完备 化 ,得 到 完备 的 赋 范 向 量 空间 1t . 一 个 内 积 空间 ， 当 作为 一 个 
赋 范 向 量 空间 是 完备 的 时 候 ， 就 是 希 尔 伯 特 空间 . 这样， 就 得 到 了 希 尔 伯 特 空 
间 允 . 

这 一 希 尔 伯 特 空间 多 称 为 再 生 核 希 尔 伯 特 空间 《reproducing kernel Hilbert 
space，RKHS)， 这 是 由 于 核 玉 具有 再 生性 ， 即 满足 


K(:,x):f =f(x) (7.83) 
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及 
K(:,7):K(.,z)=K(x,7) (7.84) 


称 为 再 生 核 . 
4， 正 定 核 的 充 要 条 件 
定理 7.5 (正定 核 的 充 要 条 件 ) ” 设 尺 :x 一 RR 是 对 称 函数 ， 则 天 (x,z) 为 正 
定 核 函数 的 充 要 条 件 是 对 任意 Xe 莽 ，i=1,2,…,m， 信 (x,z) 对 应 的 Gram 矩阵 : 
K=[KGcoz)] (7.85) 


是 半 正 定 矩 阵 . 
证 明 必要 性 . 由 于 K(x,z) 是 七 x 坪 上 的 正定 核 ， 所 以 存在 从 蕊 到 希 尔 伯 特 
空间 7t 的 映射 办 ， 使 得 
K(x,2)=G(x) 02) 
于 是 ， 对 任意 六 ,zxzw ， 构 造 玉 (cz) 关于 zzz 的 Gram 矩阵 
[Ky ] wm = [K (XX) )]roem 
对 任意 c1,c,,…,c,e R， 有 


Fac Kt)= Fac (p05)-0)) 
i a 


-Eene)) (Fem) ]-|Eoocs) 


表明 K(x,z) 关于 为,x,,…,x, 的 Gram 和 矩阵 是 半 正 定 的 . 

充分 性 . 已 知 对 称 函数 天 (zx,z) 对 任意 ,xn e 写 ， K(x,z) 关于 % ,x，…,x。 
的 Gram 矩阵 是 半 正 定 的 .根据 前 面 的 结果 ， 对 给 定 的 K(x,z) ， 可 以 构造 从 到 
某 个 希 尔 伯 特 空间 7t 的 映射 : 


2 
过 0 








$:x K(x) (7.86) 
由 式 (7.83) 可 知 ， 
K(',x):f =f(x) 
并 且 
K(:,x)K(.,z)=K(x,z) 
由 式 (7.86) 即 得 





K(x,2)=9(x) "9(z) 
表明 KK(x,z) 是 七 x 二 上 的 核 函数 ， [ 
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定理 给 出 了 正定 核 的 充 要 条 件 , 因此 可 以 作为 正定 核 , 即 核 函 数 的 另 一 定义 . 
定义 7.7 (正定 核 的 等 价 定 义 ) ” 设 鞋 CR*，K 天 (xz) 是 定义 在 志 x 世 上 的 对 称 
函数 ， 如 果 对 任意 x,e 苇 ，i=1,2,…,m ， 下 (x,z) 对 应 的 Gram 和 矩阵 


Kk =[Kooz)] (7.87) 
是 半 正 定 和 矩阵 ， 则 称 K(x,z) 是 正定 核 . 


这 一 定义 在 构造 核 函数 时 很 有 用 . 但 对 于 一 个 具体 函数 K(x,z) 来 说 , 检验 它 
是 否 为 正定 核 函 数 并 不 容易 ， 因 为 要 求 对 任意 有 限 输 入 集 fx,x,,…,x,} 验证 天 对 
应 的 Gram 和 矩阵 是 否 为 半 正 定 的 .在 实际 问题 中 往往 应 用 已 有 的 核 函 数 . 另 外， 
由 Mercer 定理 可 以 得 到 Mercer 核 (Mercer Kernel)00， 正 定 核 比 Mercer 核 更 具 
一 般 性 .下面 介 绍 一 些 常用 的 核 函数 . 


7.3.3 ”常用 核 函数 
1， 多 项 式 核 函数 { polynomial kernel function ) 














K(zz)=(x.z+D2 (7.88) 
对 应 的 支持 向 量 机 是 一 个 p 次 多 项 式 分 类 器 .在 此 情形 下 ， 分 类 决策 函数 成 为 


N, 
JCD= sm 人 Ghiaxtl) + # | (7.89) 
i=] 
2， 高 斯 核 函数 ( Gaussian kernel function ) 
2a? 


K(x,z) -mt] (7.90) 


对 应 的 支持 向 量 机 是 高 斯 径 向 基 函 数 (radial basis function) 分 类 器 . 在 此 情形 下 ， 
分 类 决策 函数 成 为 


N, i 
f(x) =sign (Ss yy “(| 地] (7.91 


3， 字符 串 核 函数 ( string kernel function ) 

核 函数 不 仅 可 以 定义 在 欧 氏 空间 上 , 还 可 以 定义 在 离散 数据 的 集合 上 . 比如 ， 
字符 串 核 是 定义 在 字符 串 集合 上 的 核 函 数 . 字符 串 核 函 数 在 文本 分 类 、 信息 检 索 、 
生物 信息 学 等 方面 都 有 应 用 . 
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考虑 一 个 有 限 字 符 表 荆 . 字符 串 s 是 从 三 中 取出 的 有 限 个 字符 的 序列 ， 包 括 
空 字符 串 , 字符 串 s 的 长 度 用 |s | 表示 ， 它 的 元 素 记 作 s(1)s(2)…s(| s|) .两 个 字符 
串 * 和 + 的 连接 记 作 st ， 所 有 长 度 为 n 的 字符 串 的 集合 记 作 了"”， 所 有 字符 串 的 集 
合 记 作 玉 = 区 . | 

考虑 字符 串 s 的 子 串 u . 给 定 一 个 指标 序列 i=(iby…,i)， 1 有 < <… 
<iul 所 ss s 的 子 串 定义 为 4=s(i)=s(i)s(%)…s(i,), 其 长 度 记 作 1()=i 一 i+1. 如 
果 i 是 连续 的 ， 则 7) 起 u|; 否则 ，1(i) >|ul. 

假设 S 是 长 度 大 于 或 等 于 ”字符 串 的 集合 ，* 是 S 的 元 素 . 现在 建立 字符 串 
集合 S 到 特征 空间 XK, = R2 的 映射 办 (s) ，R2 表示 定义 在 3" 上 的 实数 空间 ， 其 
每 一 维 对 应 一 个 字符 串 we 5" ， 映 射 办 (s) 将 字符 串 s 对 应 于 空间 R” 的 一 个 向 量 ， 
其 在 u 维 上 的 取 值 为 








[办 (四 = B20 (7.92) 


iD=w 

这 里 ，0< 4 大 1 是 一 个 衰减 参数 ，!(i) 表示 字符 串 i 的 长 度 , 求 和 在 s 中 所 有 与 y 相 
同 的 子 串 上 进行 . 

例如 , 假设 荆 为 英文 字符 集 , n 为 3，S 为 长 度 大 于 或 等 于 3 的 字符 串 的 集合 . 
考虑 将 字符 集 S 映射 到 特征 空间 万 ,， 太 ,的 一 维 对 应 于 字符 串 asd ， 这 时 ， 字 
符 申 “Nasdaq ”与 “lass das” 在 这 一 维 上 的 值 分 别 是 [办 (Nasdaq)]., = 和 2 和 
[由 (lassodas)]。s = 245 〈 吕 为 空格 ). 在 第 1 个 字符 串 里 ，asd 是 连续 的 子 串 . 在 
第 2 个 字符 串 里 ，asd 是 长 度 为 5 的 不 连续 子 串 ， 共 出 现 2 次 . 

两 个 字符 串 * 和 z+ 上 的 字符 串 核 函 数 是 基于 映射 办 的 特征 空间 中 的 内 积 : 

(5,1) = Zp 0 = 2 MoMO (7.93) 


we Zz” (4)s(i)=10))=u 





字符 串 核 函 数 (s,n) 给 出 了 字符 串 s 和 + 中 长 度 等 于 n 的 所 有 子 串 组 成 的 特征 向 
量 的 余弦 相似 度 〈cosine similarity). 直观 上 ， 两 个 字符 串 相 同 的 子 串 越 多 ， 它 们 
就 越 相似 , 字符 串 核 函 数 的 值 就 越 大 . 字符 串 核 函 数 可 以 由 动态 规划 快速 地 计算 . 


7.3.4” 非 线性 支持 向 量 分 类 机 


如 上 所 述 ， 利 用 核 技巧 ， 可 以 将 线性 分 类 的 学 习 方 法 应 用 到 非 线 性 分 类 问题 
中 去 . 将 线性 支持 向 量 机 扩展 到 非 线性 支持 向 量 机 ， 只 需 将 线性 支持 向 量 机 对 偶 
形式 中 的 内 积 换 成 核 函数 . 

定义 7.8 非 线性 支持 向 量 机 ) 从 非 线性 分 类 训练 集 ， 通 过 核 函数 与 软 间隔 
最 大 化 ， 或 凸 二 次 规划 (7.95) 一 (7.97)， 学 习 得 到 的 分 类 决策 函数 
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/=sign (Sirkess)+s ] (7.94) 
i=] 


称 为 非 线 性 支持 向 量 ，K(x,z) 是 正定 核 函数 . 


下 面 斤 述 非 线性 支持 向 量 机 学 习 算 法 . 

算法 7.4〈 非 线性 支持 向 量 机 学 习 算 法 ) 

输入 : 训练 数据 集 了 = {4,7),(6,y,)…,(xw,yw)}， 其 中 x%e X=R"，yie 
72)={-LHJ，i=12…,N; 

输出 :分 类 决策 函数 . 

(1) 选取 适当 的 核 函数 天 (x,z) 和 适当 的 参数 C， 构 造 并 求解 最 优化 问题 


Te 
min T3200)KG 4) -Yo (7.95) 
和 1 j=l i=l 
N 
st D0,=0 (7.96) 
ie 
0<@ <C, i=1,2,.,N (7.97) 


求 得 最 优 解 or = (ol ,ol as， 
《2) 选择 wx 的 一 个 正 分 量 0<c; <C， 计 算 
b=y, -banre x) 
(3) 构造 决策 函数 : 
/9 -sgn (Soiree + | a 
当 K(x,z) 是 正定 核 函 数 时 ， 问 题 (7.95) ~ (7.97) 是 凸 二 次 规划 问题 ， 解 是 存在 的 . 


7.4 序列 最 小 最 优化 算法 


本 节 讨 论 支持 向 量 机 学 习 的 实现 问题 , 我 们 知道 , 支持 向 量 机 的 学 习 问 题 可 
以 形式 化 为 求解 凸 二 次 规划 问题 . 这 样 的 凸 二 次 规划 问题 具有 全 局 最 优 解 ， 并 且 
有 许多 最 优化 算法 可 以 用 于 这 一 问题 的 求解 . 但 是 当 训练 样本 容量 很 大 时 ， 这 些 
算法 往往 变 得 非常 低 效 ， 以 致 无 法 使 用 . 所以， 如何 高 效 地 实现 支持 向 量 机 学 习 
就 成 为 一 个 重要 的 问题 . 目前 人 们 已 提出 许多 快速 实现 算法 . 本 节 讲 述 其 中 的 序 
列 最 小 最 优化 (sequential minimal optimization，SMO) 算法 ， 这 种 算法 1998 年 
由 Platt 提出 . 
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SMO 算法 要 解 如 下 凸 二 次 规划 的 对 偶 问 题 : 


NN vy 
min DY Ya KG) -Yo (7.98) 
气 气 气 
NV 
st Pay=0 (7.99) 
=l 
0<@ <C, i=b2,N (7.100) 


在 这 个 问题 中 ,变量 是 拉 格 朗 日 乘 子 ,一 个 变量 w 对 应 于 一 个 样本 点 (x,,y); 变 
量 的 总 数 等 于 训练 样本 容量 N . 

SMO 算法 是 一 种 启发 式 算法 ， 其 基本 思路 是 : 如 果 所 有 变量 的 解 都 满足 此 
最 优化 问题 的 KKT 条 件 (Karush-Kuhn-Tucker conditions)， 那 么 这 个 最 优化 问题 
的 解 就 得 到 了 .因为 KKT 条 件 是 该 最 优化 问题 的 充分 必要 条 件 ， 否 则 ， 选 择 两 
个 变量 ， 固 定 其 他 变量 ， 针 对 这 两 个 变量 构建 一 个 二 次 规划 问题 ， 这 个 二 次 规划 
问题 关于 这 两 个 变量 的 解 应 该 更 接近 原始 二 次 规划 问题 的 解 ， 因 为 这 会 使 得 原始 
二 次 规划 问题 的 目标 函数 值 变 得 更 小 .重要 的 是 ， 这 时 子 问题 可 以 通过 解析 方法 
求解 ， 这 样 就 可 以 大 大 提高 整个 算法 的 计算 速度 . 子 问题 有 两 个 变量 ， 一 个 是 违 
反 KKT 条 件 最 严重 的 那 一 个 ， 另 一 个 由 约束 条 件 自 动 确定 .如 此 ，SMO 算法 将 
原 问 题 不 断 分 解 为 子 问题 并 对 子 问 题 求解 ， 进 而 达到 求解 原 问题 的 目的 . 

注意 ， 子 问题 的 两 个 变量 中 只 有 一 个 是 自由 变量 .假设 ww，wm 为 两 个 变量 ， 
,QQw 固定， 那么 由 等 式 约 束 (7.99) 可 知 


N 
=-h 0y, 
i=2 


如 果 迪 确定 ， 那 么 W… 也 随 之 确定 .所 以 子 问题 中 同时 更 新 两 个 变量 . 

整个 SMO 算法 包括 两 个 部 分 ， 求解 两 个 变量 二 次 规划 的 解析 方法 和 选择 变 
量 的 启发 式 方法 . 
7.4.1 两 个 变量 二 次 规划 的 求解 方法 

不 失 一 般 性 ， 假 设 选择 的 两 个 变量 是 W,a ， 其 他 变量 w(i= 3,4,…,N) 是 固 
定 的 ， 于 是 SMO 的 最 优化 问题 (7.98) ~ (7.100) 的 子 问题 可 以 写成 : 


3 1 1 
Bin WO,0)=T Ko + Ka + 37Kai0n 


0 


Ea N 
-ato) ty yuKa ty yaKR (7.101) 
i=3 i=3 
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N 
st nto = -Y=6 (7.102) 


0<a <C, i=1,2 (7.103) 


其 中 ，K, =K(%,,x)),i,j=1,2…,N ，5 是 常数 ， 目 标 函 数 式 (7.101) 中 省 略 了 不 
含 w,o 的 常数 项 . 

为 了 求解 两 个 变量 的 二 次 规划 问题 (7.101) ~ (7.103)， 首 先 分 析 约 束 条 件 ， 然 
后 在 此 约束 条 件 下 求 极 小 . 

由 于 只 有 两 个 变量 (wm,o) ， 约 束 可 以 用 二 维 空间 中 的 图 形 表示 〔〈 如 图 7.8 
所 示 ). 


mC 


a=0 ps a=C 
pg 


0%=0 
罗 玫 加 -02=k Dy 0 + Ok 


图 7.8 二 变量 优化 问题 图 示 








不 等 式 约束 (7.103) 使 得 (%,as) 在 盒子 [0,C]x[0,C] 内， 等 式 约束 (7.102) 使 
(04,0) 在 平行 于 盒子 [0,C]x[0,C] 的 对 角 线 的 直线 上 .因此 要 求 的 是 目标 函数 在 
一 条 平行 于 对 角 线 的 线段 上 的 最 优 值 . 这 使 得 两 个 变量 的 最 优化 问题 成 为 实质 上 
的 单 变量 的 最 优化 问题 ， 不 妨 考 虑 为 变量 mw 的 最 优化 问题 . 

假设 问题 (7.101) ~ (7.103) 的 初始 可 行 解 为 afu ,os ， 最 优 解 为 ce" ,asew， 并 
且 假设 在 沿 着 约束 方向 未 经 剪辑 时 om 的 最 优 解 为 czerme. 

由 于 02” 需 满 足 不 等 式 约束 (7.103)， 所 以 最 优 值 ws” 的 取 值 范围 必须 满足 





条 件 
L<o™<H 


其 中 ， 工 与 如 是 o3w" 所 在 的 对 角 线 段 端点 的 界 .如果 为 关 思 《如 图 7.8 左 图 所 
示 )， 则 

也 = max(0,a2e 一 at) ， H=min(C,C+0% 一 at) 
如 果 贡 = 多 《如 图 7.8 右 图 所 示 )， 则 

工 = max(0,02 +o -C0), H=min(C,a +o) 
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下 面 ， 首 先 求治 着 约束 方向 未 经 剪辑 即 未 考虑 不 等 式 约束 (7.103) 时 om 的 最 
优 解 %”" ; 然后 再 求 剪辑 后 的 解 a2™. 我 们 用 定理 来 叙述 这 个 结果 . 为 了 叙 
述 简单 ， 记 

g()=FaKG +s (7.104) 
令 
en Kt] i=1,2 (7.105) 
a1 


当 i=1,2 时 ， 玉 ,为 函数 g(x) 对 输入 x 的 预测 值 与 真实 输出 之 差 ， 
定理 7.6 ”最 优化 问题 (7.101) ~ (7.103) 沿 着 约束 方向 未 经 剪辑 时 的 解 是 


人 + 5) (7.100) 
其 中 ， 
n=K+ Kz -2K, =|20) 一 GO 站 (07.107) 


(x) 是 输入 空间 到 特征 空间 的 映射 ，E，i=1,2， 由 式 (7.105) 给 出 . 
经 剪辑 后 的 解 是 


H, Qo >H 


0 =10™™, LS<o™™<H (7.108) 
de .i 
由 osev 求 得 aze 是 
QI = 及 (0 一 ad ) (7.109) 
证 明 引进 记号 


N 2 
w= op Kx)=8%) -Pay Kx))-b, i=1,2 
j=3 f=l 


目标 函数 可 写成 
1 1 
W(0,0) =7Kuo +7 Kn + Hy Ki0 0 
—(@ +0,)+ yivo, + 0 0.110) 
由 oy =6-0@wy 及 3=1， 可 将 表示 为 





0 =(6— 0), 
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代入 式 (7.110)， 得 到 只 是 om 的 函数 的 目标 函数 : 
W(&)= Ku(e ~ ): + Ka + Ka- ) 
—(6 -py ) ~ 0 tn(G Cy) + yr 
对 w 求 导数 
aW 


pe + Ky0 -2K10, 


—Kigy, + KGy2 + Py —1~— Vy + yov, 
令 其 为 0， 得 到 
(K+ Ky -2K1)0% =y,(y, ~ +6K 一 5KD +h—v) 


2 
= 力 j» -hh +6Ki -SK + (eBrar, - 


. 
sew-Brar, -十 
及 
将 6=a"y+osy, 代入， 得 到 
(Ki + Kz 一 2Kiz)03 7 =y,((Ki + Ky 一 2K2)Q2 yy +h +g(n)- g(x)) 
=(K + Ky 一 2KD)02 8 +y(B —E,) 
将 7=K,+K 一 2K,, 代 入， 于 是 得 到 
Cr 加 -一 
7 
要 使 其 满足 不 等 式 约束 必须 将 其 限制 在 区 间 [L,H] 内 ， 从 而 得 到 Qs" 的 表达 


式 (7.108) .由 等 式 约束 (7.102) ， 得 到 or”™ 的 表达 式 (7.109) . 于 是 得 到 最 优化 问 
题 (7.101) ~ (7.103) 的 解 (Ciev ,3™*). a 


7.4.2 ”变量 的 选择 方法 

SMO 算法 在 每 个 子 问 题 中 选择 两 个 变量 优化 , 其 中 至 少 一 个 变量 是 违反 KKT 
条 件 的 . 

1. 第 1 个 变量 的 选择 


SMO 称 选 择 第 1 个 变量 的 过 程 为 外 层 循环 .外 层 循环 在 训练 样本 中 选取 违 

反 KKT 条 件 最 严重 的 样本 点 ， 并 将 其 对 应 的 变量 作为 第 1 个 变量 . 具体 地 ， 检 
验 训练 样本 点 (xi, 芒 ) 是 否 满足 KKT 条 件 ， 即 

w=0 忆 pgC0D)>1 (7.111) 
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0<a<Coype(x)=1 (7.112) 
=COye(x)<1l (7.113) 


Vy 
其 中 ， E25)= D0y, K(x) +b 
/a 


该 检验 是 在 范围 内 进行 的 .在 检验 过 程 中 ， 外 层 循 环 首先 遍历 所 有 满足 条 
件 0<& <C 的 样本 点 ， 即 在 间隔 边界 上 的 支持 向 量 点 ， 检 验 它们 是 否 满足 KKT 
条 件 ， 如果 这 些 样本 点 都 满足 KKT 条 件 ， 那 么 遍历 整个 训练 集 ， 检 验 它们 是 否 
满足 KKT 条 件 . 


2， 第 2 个 变量 的 选择 


SMO 称 选 择 第 2 个 变量 的 过 程 为 内 层 循环 . 假设 在 外 层 循环 中 已 经 找到 第 1 
个 变量 ww ， 现 在 要 在 内 层 循环 中 找 第 2 个 变量 w .第 2 个 变量 选择 的 标准 是 希望 
能 使 有 足够 大 的 变化 . 

由 式 (7.106) 和 式 (7.108) 可 知 ， ca” 是 依赖 于 |E -| 的 ， 为 了 加 快 计算 速 
度 ， 一 种 简单 的 做 法 是 选择 &,， 使 其 对 应 的 |E 一,| 最 大 . 因为 a 已 定 ，E 也 确 
定 了 . 如 果 互 是正 的 ， 那 么 选择 最 小 的 ,作为 E,; 如 果 巨 是 负 的 ， 那 么 选择 最 
大 的 轧 作 为 E, .为 了 节省 计算 时 间 ， 将 所 有 互 . 值 保存 在 一 个 列表 中 . 

在 特殊 情况 下 , 如 果 内 层 循环 通过 以 上 方法 选择 的 o 不 能 使 目标 函数 有 足够 
的 下 降 ,那么 采用 以 下 启发 式 规则 继续 选择 m . 遍历 在 间隔 边界 上 的 支持 向 量 点 ， 
依次 将 其 对 应 的 变量 作为 由 试用 , 直到 目标 函数 有 足够 的 下 降 . 若 找 不 到 合适 的 
Q,， 那 么 遍历 训练 数据 集 ; 车 仍 找 不 到 合适 的 a, ， 则 放弃 第 1 个 w ， 再 通过 外 层 
循环 寻求 另外 的 w . 


3， 计 算 闭 值 上 和 差 值 妃 


在 每 次 完成 两 个 变量 的 优化 后 ， 都 要 重新 计算 阐 值 b. 当 0< ate* <C 时， 由 
KKT 条 件 (7.112) 可 知 : 














bE +6= 力 
于 是 ， 
pa 0.114) 
由 的 定义 式 (7.105) 有 


妆 
EB=2 oyKa to yy to y Ka tb —y 
i=3 
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式 (7.114) 的 前 两 项 可 写成 : 
丸 一 Sayk, =-B + y Ky +o y,Ky +b™ 
i=3 


代入 式 (7.114) ， 可 得 


Rod 一) 一 力 Ki(oa — 03°)+b™ (7.115) 


同样 ， 如 果 0< os™ <C ， 那 么 ， 
Ba™ =-E, -VKua(0™ -0 ) -py Kua(02™ 一 0 +b™ (7.116) 


如 果 or™,es™ 同时 满足 条 件 0<ar™ <C，i=1,2， 那 么 br™ =B™. 如 果 
or™,03™ 是 0 或 者 C， 那 么 Br” 和 b” 以 及 它们 之 闻 的 数 都 是 符合 KKT 条 件 的 
值 ， 这 时 选择 它们 的 中 点 作为 b”™. 

在 每 次 完成 两 个 变量 的 优化 之 后 ， 还 必须 更 新 对 应 的 为 值 ， 并 将 它们 保存 在 
列表 中 .五 值 的 更 新 要 用 到 4b" 值 ， 以 及 所 有 支持 向 量 对 应 的 wj : 

Er™ = Dy,0, K(x,x) +b"™ —y, (7.117) 
8 


其 中 ，$ 是 所 有 支持 向 量 zy 的 集合 . 


7.4.3 ”SMO 算法 


算法 7.5 SMO 算法 ) 
输入 : 训练 数据 集 7 ={(%,7),(%,;)…,(xwspw)}， 其 中 ，xe X=R”， ye 
7={-1+D}，i=1,2,…,N ， 精 度 e; 
输出 ， 近 似 解 必 . 
(1) 取 初 值 wco =0， 令 k=0; 
《2) 选取 优化 变量 of 9,og5， 解 析 求 解 两 个 变量 的 最 优化 问题 (7.101) 一 
(7.103) ， 求 得 最 优 解 we,ote ， 更 新 w 为 alt ; 
(3) 若 在 精度 e 范 围 内 满足 停机 条 件 
NV 
Do,=0 


is 


0<@<C, i=L2,N 


>L {xl =0} 
六 800)=1=1 {tl0<@ <C} 
< 和 1 {la=C} 
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其 中 ， 


NY 
g(%)= Poy K(x)+b 
pe 


则 转 (4); 否则 令 k=k+1， 转 (2); 
(4) 取 &=a%. - 


本 章 概 要 


1. 支持 向 量 机 最 简单 的 情况 是 线性 可 分 支持 向 量 机 ， 或 硬 间 隔 支持 向 量 
机 ， 构建 它 的 条 件 是 训练 数据 线性 可 分 .其 学 习 策 略 是 最 大 间隔 法 ， 可 以 表示 为 
号 二 次 规划 问题 ， 其 原始 最 优化 问题 为 


mn he 
St ywN+b)-l>0, i=1,2,…,N 
求 得 最 优化 问题 的 解 为 w'，b" ， 得 到 线性 可 分 支持 向 量 机 ， 分 离 超 平面 是 
w' .xt+b"=0 
分 类 决策 函数 是 


(xz)=sign(w .x+b") 


最 大 间隔 法 中 ， 函 数 间隔 与 几何 间隔 是 重要 的 概念 . 

线性 可 分 支持 向 量 机 的 最 优 解 存 在 且 唯 一 . 位 于 间隔 边界 上 的 实例 点 为 支持 
向 量 . 最 优 分 离 超 平面 由 支持 向 量 完全 决定 . 

二 次 规划 问题 的 对 偶 问 题 是 


1 NN N 
min Loe) -So 
t=] j=] = 


st > an=0 
ji 
o>0, i=L2,N 


通常 ， 通 过 求解 对 偶 问 题 学 习 线性 可 分 支持 向 量 机 ， 即 首先 求解 对 偶 问题 的 
最 优 值 2* ， 然 后 求 最 优 值 w” 和 25" ， 得 出 分 离 超 平面 和 分 类 决策 函数 . 
2. 现实 中 训练 数据 是 线性 可 分 的 情形 较 少 ， 训 练 数据 往往 是 近似 线性 可 分 
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的 ， 这 时 使 用 线性 支持 向 量 机 ， 或 软 间隔 支持 向 量 机 . 线性 支持 向 量 机 是 最 基本 


的 支持 向 量 机 . 
对 于 噪声 或 例外 ， 通 过 引入 松弛 变量 各 ， 使 其 “可 分 ”， 得 到 线性 支持 向 量 
机 学 习 的 凸 二 次 规划 问题 ， 其 原始 最 优化 问题 是 


oo 二 +cy>5 
ws 2 pW 


st ywxth)>1-E, i=1,2,,N 
E20, i=L2,N 
求解 原始 最 优化 问题 的 解 w' ,5b" ， 得 到 线性 支持 向 量 机 ， 其 分 离 超 平面 为 
w :x+b"=0 
分 类 决策 函数 为 


f(x)=sign(w’ .x+b") 


线性 可 分 支持 向 量 机 的 解 w 唯一 但 户 不 唯一 . 
对 偶 问 题 是 


加 1 "i N 
min oy 5) -Do 
to] j=l iel 


N 
st Dmy=0 
. 
0<@%<C, i=12,N 


线性 支持 向 量 机 的 对 偶 学 习 算法 , 首先 求解 对 偶 问 题 得 到 最 优 解 a*， 然后 求 
原始 问题 最 优 解 w 和 4b" ， 得 出 分 离 超 平面 和 分 类 决策 函数 ， 

对 偶 问题 的 解 w 中 满足 a > 0 的 实例 点 称 为 支持 向 量 .支持 向 量 可 在 间隔 
边界 上 ， 也 可 在 间隔 边界 与 分 离 超 平面 之 间 ， 或 者 在 分 离 超 平面 误 分 一 侧 . 最 优 
分 离 超 平面 由 支持 向 量 完全 决定 . 

线性 支持 向 量 机 学 习 等 价 于 最 小 化 二 阶 范 数 正则 化 的 合 页 函数 


N 
FL- +D)], +4l wl 
1 


3. 非 线性 支持 向 量 机 
对 于 输入 空间 中 的 非 线性 分 类 问题 , 可 以 通过 非 线性 变换 将 它 转化 为 某 个 高 


继续 阅读 133 





维特 征 空 间 中 的 线性 分 类 问题 ， 在 高 维特 征 空间 中 学 习 线性 支持 向 量 机 . 由 于 在 
线性 支持 向 量 机 学 习 的 对 偶 问 题 里 , 目标 函数 和 分 类 决策 函数 都 只 涉及 实例 与 实 
例 之 间 的 内 积 ， 所 以 不 需要 显 式 地 指定 非 线性 变换 ， 而 是 用 核 函数 来 替换 当中 的 
内 积 . 核 函 数 表示 , 通过 一 个 非 线性 转换 后 的 两 个 实例 间 的 内 积 . 具体 地 ，K(x,z) 
是 一 个 核 函 数 ， 或 正定 核 ， 意 味 着 存在 一 个 从 输入 空间 守 到 特征 空间 多 的 映射 
9(x): 全 一 KH， 对 任意 x,ze 庆 ,有 


K(x,z2)=0(x) "9(2) 


对 称 函 数 KK(x,z) 为 正定 核 的 充 要 条 件 如 下 : 对 任意 x%e 七 ，i=1,2,…,m， 任意 正 
整数 m ， 对 称 函数 K(x,z) 对 应 的 Gram 矩阵 是 半 正 定 的 . 

所 以 ， 在 线性 支持 向 量 机 学 习 的 对 偶 问 题 中 ， 用 核 函 数 K(x,z) 替代 内 积 , 求 
解 得 到 的 就 是 非 线性 支持 向 量 机 


a C=sign Sainkees)+s | 
i=l 


4. SMO 算法 

SMO 算法 是 支持 向 量 机 学 习 的 一 种 快速 算法 ， 其 特点 是 不 断 地 将 原 二 次 规 
划 问 题 分 解 为 只 有 两 个 变量 的 二 次 规划 子 问题 ， 并 对 子 问题 进行 解析 求解 ， 直 到 
所 有 变量 满足 KKT 条 件 为 止 ， 这 样 通 过 启发 式 的 方法 得 到 原 二 次 规划 问题 的 最 
优 解 ， 因 为 子 问题 有 解析 解 ， 所 以 每 次 计算 子 问 题 都 很 快 ， 虽 然 计算 子 问题 次 数 
很 多 ， 但 在 总 体 上 还 是 高 效 的 . 


继续 阅读 


线性 支持 向 量 机 ( 软 间隔 ) 由 Cortes 与 Vapnik 提出 由. 同时 , Boser Guyon 与 
Vapnik 又 引入 核 技巧 ， 提 出 非 线性 支持 向 量 机 四 ，Drucker 等 人 将 其 扩展 到 支持 
向 量 回归 馈 ，Vapnik Vladimir 在 他 的 统计 学 习 理论 多 一 书 中 对 支持 向 量 机 的 泛 化 
能 力 进行 了 论述 . 

了 Platt 提出 了 支持 向 量 机 的 快速 学 习 算 法 SMOI,Joachims 实现 的 SVM Light， 
以 及 Chang 与 Lin 实现 的 LIBSVM 软件 包 被 广泛 使 用 .2 

原始 的 支持 向 量 机 是 二 类 分 类 模型 ， 又 被 推广 到 多 类 分 类 支持 向 量 机 L571， 以 
及 用 于 结构 预测 的 结构 支持 向 量 机 外. 

关于 支持 向 量 机 的 文献 很 多 . 支持 向 量 机 的 介绍 可 参照 文献 [9~12]. 核 方法 


® SVM Light: http://svmlightjoachims.org/. LIBSVM: httpy/www.csie.ntu.edu.tw/~cjlin/libsvm/, 


134 


第 7 章 支持 向 量 机 





被 认为 是 比 支持 向 量 机 更 具 一 般 性 的 机 器 学 习 方 法 . 核 方法 的 介绍 可 参考 文献 
[13 一 15]. 


L} 
b 放 


1.3 


1.4 


[ 
四] 


[3] 


[4] 


[5] 


[6] 


[1 


习 题 


比较 感知 机 的 对 偶 形 式 与 线性 可 分 支持 向 量 机 的 对 偶 形 式 ， 

已 知 正 例 点 =(1,2)"， =(2,3)"， 为 =(3,3)7 负 例 点 六 =(2.D7，x5 =(3,2)7 
试 求 最 大 间隔 分 离 超 平面 和 分 类 决策 函数 , 并 在 图 上 画 出 分 离 超 平面 、 间隔 
边界 及 支持 向 量 . 


线性 支持 向 量 机 还 可 以 定义 为 以 下 形式 : 
吏 Siw + 
St ywN+h)1-E, i=1,2,,N 
各 >0，i=12…,N 
试 求 其 对 个 形式 . 
证 明 内 积 的 正 整数 短 函 数 : 


K(x,z)=(x.2)° 


是 正定 核 函数 ， 这 里 尸 是正 整数 ，xzs R”. 
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第 8 章 提升 方法 


提升 (boosting) 方法 是 一 种 常用 的 统计 学 习 方 法 ， 应 用 广泛 且 有 效 . 在 分 
类 问题 中 ， 它 通过 改变 训练 样本 的 权重 ， 学 习 多 个 分 类 器 ， 并 将 这 些 分 类 器 进行 
线性 组 合 ， 提 高 分 类 的 性 能 . 

本 章 首先 介绍 提升 方法 的 思路 和 代表 性 的 提升 算法 AdaBoost; 然后 通过 训练 
误差 分 析 探 讨 AdaBoost 为 什么 能 够 提高 学 习 精 度 : 并 且 从 前 向 分 步 加 法 模型 的 
角度 解释 AdaBoost; 最 后 叙述 提升 方法 更 具体 的 实例 一 一 提升 树 (boosting 
tree)，AdaBoost 算法 是 1995 年 由 Freund 和 Schapire 提出 的 ， 提 升 树 是 2000 年 
由 Friedman 等 人 提出 的 . 


8.1 提升 方法 AdaBoost 算法 


8.1.1 提升 方法 的 基本 思路 


提升 方法 基于 这 样 一 种 思想 : 对 于 一 个 复杂 任务 来 说 ,将 多 个 专家 的 判断 进 
行 适当 的 综合 所 得 出 的 判断 ， 要 比 其 中 任何 一 个 专家 单独 的 判断 好 . 实际 上 ， 就 
是 “三 个 臭 皮 匠 顶 个 诸葛 亮 ” 的 道理 . 

历史 上 , Kearns 和 Valiant 首先 提出 了 “ 强 可 学 习 (strongly leamable)” 和 “ 弱 
可 学 习 (weakly learnable)” 的 概念 . 指出 : 在 概率 近似 正确 (probably approximately 
correct，PAC) 学 习 的 框架 中 ， 一 个 概念 (一 个 类 )， 如 果 存 在 一 个 多 项 式 的 学 习 
算法 能 够 学 习 它 , 并 且 正 确 率 很 高 , 那么 就 称 这 个 概念 是 强 可 学 习 的 ; 一 个 概念 ， 
如 果 存在 一 个 多 项 式 的 学 习 算 法 能 够 学 习 它 , 学 习 的 正确 率 仅 比 随机 猜测 略 好 , 那 
么 就 称 这 个 概念 是 弱 可 学 习 的 . 非常 有 趣 的 是 Schapire 后 来 证 明 强 可 学 习 与 弱 可 
学 习 是 等 价 的 ， 也 就 是 说 ， 在 PAC 学 习 的 框架 下 ， 一 个 概念 是 强 可 学 习 的 充分 
必要 条 件 是 这 个 概念 是 弱 可 学 习 的 . 

这 样 一 来 ， 问 题 便 成 为 ， 在 学 习 中 ， 如 果 已 经 发 现 了 “ 弱 学 习 算法 ” 那么 
能 否 将 它 提升 (boost) 为 “ 强 学 习 算法 ”， 大 家 知道 ， 发 现 弱 学 习 算 法 通常 要 比 
发 现 强 学 习 算 法 容易 得 多 . 那么 如 何 具体 实施 提升 ， 便 成 为 开发 提升 方法 时 所 要 
解决 的 问题 . 关于 提升 方法 的 研究 很 多 ， 有 很 多 算法 被 提出 . 最 具 代 表 性 的 是 
AdaBoost 算法 (AdaBoost algorithm ). 

对 于 分 类 问题 而 言 ， 给 定 一 个 训练 样本 集 ， 求 比较 粗糙 的 分 类 规则 〈 弱 分 类 
器 ) 要 比 求 精确 的 分 类 规则 《〔 强 分 类 器 ) 容易 得 多 . 提升 方法 就 是 从 弱 学 习 算法 
出 发 ， 反 复学 习 ， 得 到 一 系列 弱 分 类 器 〈 又 称 为 基本 分 类 器 )， 然 后 组 合 这 些 弱 
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分 类 器 , 构成 一 个 强 分 类 器 . 大 多 数 的 提升 方法 都 是 改变 训练 数据 的 概率 分 布 ( 训 
练 数据 的 权 值 分 布 )， 针 对 不 同 的 训练 数据 分 布 调用 弱 学 习 算法 学 习 一 系列 弱 分 
类 器 . 

这 样 ， 对 提升 方法 来 说 ， 有 两 个 问题 需要 回答 : 一 是 在 每 一 轮 如 何 改变 训练 
数据 的 权 值 或 概率 分 布 ， 二 是 如 何 将 弱 分 类 器 组 合成 一 个 强 分 类 器 . 关于 第 1 个 
问题 ，AdaBoost 的 做 法 是 ， 提 高 那些 被 前 一 轮 弱 分 类 器 错误 分 类 样本 的 权 值 ， 而 
降低 那些 被 正确 分 类 样本 的 权 值 . 这 样 一 来 ， 那 些 没有 得 到 正确 分 类 的 数据 ， 由 
于 其 权 值 的 加 大 而 受到 后 一 轮 的 弱 分 类 器 的 更 大 关注 . 于 是 ， 分 类 问题 被 一 系列 
的 弱 分 类 器 “分 而 治之 ” 至 于 第 2 个 问题 ， 即 弱 分 类 器 的 组 合 ，AdaBoost 采取 
加 权 多 数 表决 的 方法 . 具体 地 ， 加 大 分 类 误差 率 小 的 弱 分 类 器 的 权 值 ， 使 其 在 表 
决 中 起 较 大 的 作用 ， 减 小 分 类 误差 率 大 的 弱 分 类 器 的 权 值 ， 使 其 在 表决 中 起 较 小 
的 作用 . 

AdaBoost 的 巧妙 之 处 就 在 于 它 将 这 些 想法 自然 且 有 效 地 实现 在 一 种 算法 里 . 


8.1.2 AdaBoost 算法 
现在 叙述 AdaBoost 算法 . 假设 给 定 一 个 二 类 分 类 的 训练 数据 集 
T={C0 (5) ys pw)} 


其 中 ， 每 个 样本 点 由 实例 与 标记 组 成 ， 实 例 %e CR"， 标记 pe y={-l,+]}， 
车 是 实例 空间 ， 是 标记 集合 . AdaBoost 利用 以 下 算法 ， 从 训练 数据 中 学 习 一 
系列 弱 分 类 器 或 基本 分 类 器 ， 并 将 这 些 弱 分 类 器 线性 组 合成 为 一 个 强 分 类 器 . 

算法 8.1 (AdaBoost) _ 

输入 ;训练 数据 集 了 = {(n ,Co 六 (zw 及 其 中 5 二 ER"，ye 
JJ={b+1 ， 弱 学 习 算法 ; 

输出 : 最 终 分 类 器 G(X) . 

〈1) 初始 化 训练 数据 的 权 值 分 布 


We 
D. = ii, Mw)» Ww=y’ /=b2N 


(2) 对 m=1,2,…,M 
(a) 使 用 具有 权 值 分 布 D, 的 训练 数据 集 学 习 ， 得 到 基本 分 类 器 


CGO: 二 一 全 1L+] 
(b) 计算 G(x) 在 训练 数据 集 上 的 分 类 误差 率 
6, =P(G,(e) #7)=D wl(G,06) #7») G.D 
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(c) 计算 G(x) 的 系数 





= Slog 1 Ss (82) 

这 里 的 对 数 是 自然 对 数 . 

(qd) 更 新 训练 数据 集 的 权 值 分 布 

Din = Wares Wn Wty ) (8.3) 
Wn = 到 exp(Cou JiGCOoD)) ，i=12…,N (8.4) 

这 里 ，Z, 是 规范 化 因子 
Z, = 六 wexpCauyG。GO) (8.5) 

i=] 


它 使 D,,, 成 为 一 个 概率 分 布 . 
(3) 构建 基本 分 类 器 的 线性 组 合 


7 四 = 六 ac (8.0) 
得 到 最 终 分 类 器 
G0)=sin 00) =sign (P00.09] GD 
[| 
对 AdaBoost 算法 作 如 下 说 明 : 


步骤 (1》 假设 训练 数据 集 具有 均匀 的 权 值 分 布 ， 即 每 个 训练 样本 在 基本 分 类 
器 的 学 习 中 作用 相同 ,这 一 假设 保证 第 1 步 能 够 在 原始 数据 上 学 习 基本 分 类 器 G(x) . 
步骤 (2) AdaBoost 反复 学 习 基 本 分 类 器 ， 在 每 一 轮 m=1,2,…,M 顺 次 地 执 
行 下 列 操作 : 
(a) 使 用 当前 分 布 D, 加 权 的 训练 数据 集 ， 学 习 基 本 分 类 器 G,(z) . 
(b) 计算 基本 分 类 器 G,,(x) 在 加 权 训练 数据 集 上 的 分 类 误差 率 ， 
en =P(G, (A)#)= > ww (8.8) 


Gee 
这 里 ，ww 表示 第 m 轮 中 第 i 个 实例 的 权 值 ， Dt 3 这 表明 ，G,,(x) 在 加 权 的 


训练 数据 集 上 的 分 类 误差 率 是 被 G,(x) 误 分 类 样本 的 权 信之 和 ， 由 此 可 以 看 出 数 
据 权 值 分 布 乙 , 与 基本 分 类 器 G(x) 的 分 类 误差 率 的 关系 . 
《c) 计算 基本 分 类 器 G, (x) 的 系数 wu ， a,, 表示 G, (x) 在 最 终 分 类 器 中 的 重要 


性 ， 由 式 (8.2) 可 知 ， 当 e。 < 了 时 ， 0 兰 0， 并 且 ax。 随 着 ev 的 减 小 而 增 大 ， 所 以 
分 类 误差 率 越 小 的 基本 分 类 器 在 最 终 分 类 器 中 的 作用 越 大 . 
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(qd) 更 新 训练 数据 的 权 值 分 布 为 下 一 轮作 准备 ， 式 (8.4) 可 以 写成 : 


Ws em Ey 
和 (j= 
Z, C=» 


Worl = 


守 G.G) 
由 此 可 知 ， 被 基本 分 类 器 G,(z) 误 分 类 样本 的 权 值 得 以 扩大 ， 而 被 正确 分 类 样本 
的 权 值 却 得 以 缩小 ， 两 相 比较 ， 误 分 类 样本 的 权 值 被 放大 ex = 倍 ， 因此， 


误 分 类 样本 在 下 一 轮 学 习 中 起 更 大 的 作用 . 不 改变 所 给 的 训练 数据 ， 而 不 断 改变 
训练 数据 权 值 的 分 布 ， 使 得 训练 数据 在 基本 分 类 器 的 学 习 中 起 不 同 的 作用 ， 这 是 
AdaBoost 的 一 个 特点 . 

步骤 (3) 线性 组 合 f(x) 实现 M 个 基本 分 类 器 的 加 权 表 决 . 系数 mw, 表示 了 
基本 分 类 器 G(x) 的 重要 性 ， 这 里 ， 所 有 ov 之 和 并 不 为 1，f(x) 的 符号 决定 实例 
x 的 类 ，f(x) 的 绝对 值 表示 分 类 的 确信 度 . 利用 基本 分 类 器 的 线性 组 合 构建 最 终 
分 类 器 是 AdaBoost 的 另 一 特点 ， 














8.1.3 AdaBoost 的 例子 ? 


例 8.1 给 定 如 表 8.1 所 示 训 练 数据 .假设 弱 分 类 器 由 x<v 或 x>v 产 生 ， 其 
闵 值 v 使 该 分 类 器 在 训练 数据 集 上 分 类 误差 率 最 低 . 试用 AdaBoost 算法 学 习 一 个 
强 分 类 器 . 








表 8.1 训练 数据 表 
序号 1 和 4 5 6 7 8 9 10 
x 0 1 2 3 4 5 6 7 8 9 





解 ”初始化 数据 权 值 分 布 
D. = (Ws Wa Mio) 
w=0.1, i=1,2,…,10 
对 m=1， 
(a) 在 权 值 分 布 为 的 训练 数据 上 ， 阔 值 v 取 2.5 时 分 类 误差 率 最 低 ， 故 基 
本 分 类 器 为 
xX<25 


1 
ao- 忆 x>2.5 





人 @ 例题 来 源 于 http://www.csie.edu.tw。 
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(b) G(x) 在 训练 数据 集 上 的 误差 率 @ = P(G (x,)# 狼 )=0.3. 
(c) 计算 G(x) 的 系数 : =F1o8 7 =04236. 


(d) 更 新 训练 数据 的 权 值 分 布 : 


D, = (ware We Wo) 
= 半 exp(opG C0), i=b2,10 


D, =(0.0715,0.0715,0.0715,0.0715,0.0715,0.0715, 
0.1666,0.1666,0.1666,0.0715) 
fi(x) =0.4236G,(x) 
分 类 器 sign[ 帮 (Oo] 在 训练 数据 集 上 有 3 个 误 分 类 点 . 
对 m=2， 


(a) 在 权 值 分 布 为 D, 的 训练 数据 上 ， 阔 值 " 是 8.5 时 分 类 误差 率 最 低 ， 基 本 
分 类 器 为 


XxX<8.5 


1, 
2 信 x>8.5 


(b) G,(x) 在 训练 数据 集 上 的 误差 率 e = 0.2143. 
(c) 计算 mm =0.6496. 
(d) 更 新 训练 数据 权 值 分 布 : 
D, =(0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.1667, 
0.1060, 0.1060, 0.1060, 0.0455) 
f(x) =0.4236G, (x)+ 0.6496G, (x) 
分 类 器 sign[ 万 (9] 在 训练 数据 集 上 有 3 个 误 分 类 点 . 
对 m=3， 


(a) 在 权 值 分 布 为 D 的 训练 数据 上 ， 阔 值 v 是 5.5 时 分 类 误差 率 最 低 ， 基 本 
分 类 器 为 


XxX<5.5 
(Cb) Gs(x) 在 训练 样本 集 上 的 误差 率 。 =0.1820. 
(c) 计算 @ = 0.7514. 
〈d) 更 新 训练 数据 的 权 值 分 布 : 
D, = (0.125,0.125,0.125,0.102,0.102,0.102,0.065,0.065,0.065,0.125) 
于 是 得 到 : 


1, XxX>5.5 
GG)= 全 
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大 GD =0.4236G,(x) + 0.6496G, (x)+0.7514G, (x) 


分 类 器 sign[/;(x)] 在 训练 数据 集 上 误 分 类 点 个 数 为 0. 
于 是 最 终 分 类 器 为 


G(x) =sign[ f(x)] =sign[0.4236G,(x)+ 0.6496G, (x)+ 0.7514G, (x)] 和 


8.2 AdaBoost 算法 的 训练 误差 分 析 


AdaBoost 最 基本 的 性 质 是 它 能 在 学 习 过 程 中 不 断 减 少 训练 误差 , 即 在 训练 数 
据 集 上 的 分 类 误差 率 . 关于 这 个 问题 有 下 面 的 定理 : 

定理 8.1 (AdaBoost 的 训练 误差 界 ) AdaBoost 算法 最 终 分 类 器 的 训练 误差 
界 为 


N 
D166) #)< Dep )=I1z, (8.9) 
气 7 
这 里 ,G(x) ,f(x) 和 2 分 别 由 式 (8.7) 、 式 (8.6) 和 式 (8.5) 给 出 . 
证 明 当 G(o)# 芒 时 ，yAC)<0， 因 而 exp(-y% (xs) 关 1， 由 此 直接 推导 


出 前 半 部 分 . 
后 半 部 分 的 推导 要 用 到 Z, 的 定义 式 (8.5) 及 式 (8.4) 的 变形 : 


Wm EXP(—On yi Gn (%)) = Zn Wns 





现 推导 如 下 : 
方 ZepCoye 


=1 Dow (vanc. 人 
站 m=1 
M 
= ,wT Texp(-o,»,G,(%,)) 
i m=] 
=2Z ,w]expC-0,»,6,(%)) 
i m=2 


=22, wl TexpC-0,y,6,(%) 
i m=3 


=2.2, Za wa exp(-Qy yiGu (x)) 


-站 >z。 国 
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这 一 定理 说 明 ， 可 以 在 每 一 轮 选取 适当 的 G, 使 得 Z, 最 小 ， 从 而 使 训练 误差 
下 降 最 快 . 对 二 类 分 类 问题 ， 有 如 下 结果 
定理 8.2〈 二 类 分 类 问题 AdaBoost 的 训练 误差 界 ) 


Tz, = 站 pvJaace= 首 VC375< ce- 营 思 ] (8.10) 
m=] m=] m=l] m=] 


这 里 ， = 
证 明 由 了. 的 定义 式 (8.5) 及 式 (5.8) 得 
2 = ep Gu 


- 了 We 十 by We 
n=G(s) nt (5) 
=(l-e,)e ~” +e,e™” 


=2Ves(-e,) = VI-4y,’ (8.11) 


至 于 不 等 式 
1a < co- 交 本 


则 可 先 由 e 和 VI-x 在 点 x= 0 的 泰勒 展 开 式 推出 不 等 式 J - 472) < exp(-272)， 
进而 得 到 . . 
推论 8.1 如 果 存在 y>0， 对 所 有 普 有 为 =， 则 


HYG) #7) < exp(-2M7) (8.12) 
和 =1 


这 表明 在 此 条 件 下 AdaBoost 的 训练 误差 是 以 指数 速率 下 降 的 ， 这 一 性 质 当 
然 是 很 有 吸引 力 的 . 

注意 ，AdaBoost 算法 不 需要 知道 下 界 y . 这 正 是 Freund 与 Schapire 设计 
AdaBoost 时 所 考虑 的 .与 一 些 早期 的 提升 方法 不 同 ，AdaBoost 具有 适应 性 ， 即 它 
能 适应 弱 分 类 器 各 自 的 训练 误差 率 . 这 也 是 它 的 名 称 (适应 的 提升 ) 的 由 来 , Ada 
是 Adaptive 的 简写 . 


8.3 AdaBoost 算法 的 解释 


AdaBoost 算法 还 有 另 一 个 解释 ， 即 可 以 认为 AdaBoost 算法 是 模型 为 加 法 模 
型 、 损 失 函 数 为 指数 函数 、 学 习 算法 为 前 向 分 步 算法 时 的 二 类 分 类 学 习 方法 . 
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8.3.1 前 向 分 步 算 法 
考虑 加 法 模型 (additive model) 
f= pb 为) (8.13) 


其 中 ，b(x;%,) 为 基 范 数 ，%, 为 基 函 数 的 参数 ， 有 ,为 基 函 数 的 系数 . 显然 , 式 (8.6) 
是 一 个 加 法 模型 . 

在 给 定 训练 数据 及 损失 函数 L(y, 了 (x)) 的 条 件 下， 学习 加 法 模型 7(z) 成 为 经 
验 风 险 极 小 化 即 损失 函数 极 小 化 问题 : 


再 六 (2 空 aaesz] (2.19 
-sn j=) m=] 

通常 这 是 一 个 复杂 的 优化 问题 前 向 分 步 算法 forward stagewise algorithmn) 求 
解 这 一 优 化 问题 的 想法 是 ， 因 为 学 习 的 是 加 法 模型 ， 如 果 能 够 从 前 向 后 ， 每 一 上 


只 学 习 一 个 基 函 数 及 其 系数 ， 逐 步 逼 近 优化 目标 函数 式 (8.14) ， 那 么 就 可 以 简化 
优化 的 复杂 度 ， 具体 地 ， 每 步 只 需 优化 如 下 损失 函数 : 


N 
min L(y, Bo;) (8.15) 
“icl 


给 定 训练 数据 集 T={G6,p),G6,y2)…*,(xn,7n)} ze 二 SR yey= 
{4+ 损失 函数 L(y, 了 (x)) 和 基 函 数 的 集合 {b(x;7)} ， 学 习 加 法 模型 f(x) 的 前 
向 分 步 算法 如 下 : 

算法 8.2 (前 向 分 步 算法 ) 

输入 : 训练 数据 集 了 = {x6,),(%, 力 )…,(xysyw)}; 损失 函数 L(y, f(x)); 基 
函数 集 {b(x; 力 ) ; 

输出 ， 加 法 模型 f(x) . 

(1) 初始 化 f(x)=0 

(2) 对 m=1,2,…,M 

(a) 极 小 化 损失 函数 


(Bs1s) =arg min DL (72, fas) + Bhs) (810) 
il 


得 到 参数 ，y， 
(b) 更 新 

fn(¥)= r(x + Bb(x;y,) (8.17) 
(3) 得 到 加 法 模型 


f= fu0) = by) G18) 
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这 样 ， 前 向 分 步 算 法 将 同时 求解 从 m=1 到 MM 所 有 参数 p,， yy, 的 优化 问题 简 
化 为 逐次 求解 各 个 B,，y, 的 优化 问题 . 


8.3.2 ”前 向 分 步 算 法 与 AdaBoost 


由 前 向 分 步 算法 可 以 推导 出 AdaBoost， 用 定理 叙述 这 一 关系 ; 

定理 8.3 ”AdaBoost 算法 是 前 向 分 步 加 法 算法 的 特例 . 这 时 ， 模 型 是 由 基本 
分 类 器 组 成 的 加 法 模型 ， 损 失 函 数 是 指数 函数 . 

证 明 ”前 向 分 步 算 法 学 习 的 是 加 法 模型 ， 当 基 函 数 为 基本 分 类 器 时 ， 该 加 法 
模型 等 价 于 AdaBoost 的 最 终 分 类 器 


M 
JCD= > 0,6,(%) (8.19) 
m=l 


由 基本 分 类 器 G, (x) 及 其 系数 组 成 ，m =1,2,…,M . 前 向 分 步 算法 逐一 学 习 基 
函数 ， 这 一 过 程 与 AdaBoost 算法 逐一 学 习 基 本 分 类 器 的 过 程 一 致 ， 下 面 证 明 前 
向 分 步 算 法 的 损失 函数 是 指数 损失 函数 (exponential loss function ) 
L(y,7 (x) = exp[-»/ (x)] 
时 ， 其 学 习 的 具体 操作 等 价 于 AdaBoost 算法 学 习 的 具体 操作 . 
假设 经 过 m1 轮 迭 代 前 向 分 步 算法 已 经 得 到 f(x) : 
Sma(¥) = fa (x) + On Gn (7) 
=0G (0) + + OG (x) 
在 第 m 轮 夫 代 得 到 @,, G, (x) 和 f(x) . 
X= fF) +o,G, (x) 


目标 是 使 前 向 分 步 算 法 得 到 的 ,和 G, (x) 使 (x) 在 训练 数据 集 7 上 的 指数 损失 
最 小 ， 即 








N 
(Qs G(x) = argmip >,exp[—y, fri(x) + G(x))] (8.20) 
式 (8.20) 可 以 表示 为 
N 
(oo G。 (0) =argmin 2 w, exp[—y,0G(%,)] (8.21) 





其 中 ， 访 ,= exp[ 一 》f1(%)] .因为 雹 , 既 不 依赖 w 也 不 依赖 于 G ， 所 以 与 最 小 化 
无 关 . 但 部, 依赖 于 太 ,(o ， 随 着 每 一 轮 先 代 而 发 生 改 变 . 

现 证 使 式 (8.21) 达到 最 小 的 o 和 G; (x) 就 是 AdaBoost 算法 所 得 到 的 @, 和 
G,(x) .求解 式 (8.21) 可 分 两 步 : 

首先 ， 求 G;(x) . 对 任意 w > 0 ， 使 式 (8.21) 最 小 的 G(x) 由 下 式 得 到 : 
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G0 =argmin SW, 70 #G(x)) 
i=] 





其 中 ， 坟 ,=exp[ 玫 ft(%)]、 

此 分 类 器 G(x) 即 为 AdaBoost 算法 的 基本 分 类 器 G,, (x) ,因为 它 是 使 第 m 轮 
加 权 训 练 数据 分 类 误差 率 最 小 的 基本 分 类 器 . 

之 后 ， 求 a; . 参照 式 (8.11)， 式 (8.21) 中 














pC exp[—y.2G(x)] 
sl 


= 7 We+ 》 wer 


N=Gn(n) Gm (5) 


= -eG(5) + (8.22) 
和 1 i=] 


将 已 求 得 的 G»(x) 代 入 式 (8.22)， 对 w 求 导 并 使 导数 为 0， 即 得 到 使 式 (8.21) 最 
小 的 cx . 


a =llogl-% 
m= 时 本 


其 中 ，en 是 分 类 误差 率 : 


N 
DIO G(x) 
oo wl #6,(%)) 
> Ww isl 
i=] 
这 里 的 @ 与 AdaBoost 算法 第 2(c) 步 的 @, 完全 一 致 . 
最 后 来 看 每 一 轮 样本 权 值 的 更 新 ， 由 


fF) = fraF) + on,G, x) 
以 及 声 , =exp[-yf1(%)]， 可 得 
Wr = Wn EXp[—y10n G,, (x)] 
这 与 AdaBoost 算法 第 2(d) 步 的 样本 权 值 的 更 新 ， 只 相差 规范 化 因子 ， 因 而 
等 价 . m 


8.4 提 升 树 


提升 树 是 以 分 类 树 或 回归 树 为 基本 分 类 器 的 提升 方法 . 提升 树 被 认为 是 统计 
学 习 中 性 能 最 好 的 方法 之 一 . 
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8.4.1 提升 树 模 型 


提升 方法 实际 采用 加 法 模型 《 即 基 函 数 的 线性 组 合 ) 与 前 向 分 步 算法 . 以 决 
策 树 为 基 函 数 的 提升 方法 称 为 提升 树 〈boosting tree)， 对 分 类 问题 决策 树 是 二 叉 
分 类 树 ， 对 回归 问题 决策 树 是 二 又 回归 树 . 在 例 8.1 中 看 到 的 基本 分 类 器 x<v 或 
x>v， 可 以 看 作 是 由 一 个 根 结 点 直接 连接 两 个 叶 结 点 的 简单 决策 树 ， 即 所 谓 的 决 
策 树 桂 (decision stump)， 提升 树 模型 可 以 表示 为 决策 树 的 加 法 模型 ; 


记 O9= 祥 reseu) (8.23) 
其 中 ，T(x;@,) 表 示 决 策 树 。 6, 为 决策 树 的 参数 ， 1 为 树 的 个 数 . 
8.4.2 ”提升 树 算法 


提升 树 算 法 采用 前 向 分 步 算法 . 首先 确定 初始 提升 树 (x) =0， 第 m 步 的 模 
型 是 

















(t= f(x +T(x;O,) (8.24) 
其 中 ， 40) 为 当前 模型 ， 通 过 经 验 风险 极 小 化 确定 下 一 棵 决策 树 的 参数 B。， 
O, =argmin 2 LO 1 1(%) +70%;©,)) (8.25) 


由 于 树 的 线性 组 合 可 以 很 好 地 拟 合 训练 数据 ， 即 使 数据 中 的 输入 与 输出 之 间 
的 关系 很 复杂 也 是 如 此 ， 所 以 提升 树 是 一 个 高 功能 的 学 习 算法 . 

下 面 讨论 针对 不 同 问题 的 提升 树 学 习 算 法 ,其 主要 区 别 在 于 使 用 的 损失 函数 
不 同 . 包括 用 平方 误差 损失 函数 的 回归 问题 ， 用 指数 损失 函数 的 分 类 问题 ， 以 及 
用 一 般 损失 函数 的 一 般 决 策 问题 . 

对 于 二 类 分 类 问题 , 提升 树 算法 只 需 将 AdaBoost 算法 8.1 中 的 基本 分 类 器 限 
制 为 二 类 分 类 树 即 可 ， 可 以 说 这 时 的 提升 树 算法 是 AdaBoost 算法 的 特殊 情况 ， 
这 里 不 再 细 述 . 下 面 叙述 回归 问题 的 提升 树 ， 

已 知 一 个 训练 数据 集 了 = {66,7),(w, 芒 )…,(xy,py，heCR"，t 为 输 
入 空间 ，EeJER ，) 为 输出 空间 . 在 5.5 节 中 已 经 讨论 了 回归 树 的 问题 . 如 
果 将 输入 空间 忒 划分 为 了 个 互 不 相交 的 区 域 尺 ,R，…,R, ， 并 且 在 每 个 区 域 上 确 
定 输 出 的 常量 ， 那 么 树 可 表示 为 





T(x8)=Yele R) {8.26) 
气 





其 中 ， 参 数 B= {(R,c),(R,c)…,(Ric))} 表 示 树 的 区 域 划分 和 各 区 域 上 的 党 
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数 . J 是 回归 树 的 复杂 度 即 叶 结 点 个 数 . 
回归 问题 提升 树 使 用 以 下 前 向 分 步 算法 : 


万 CO =0 
大 (= 大: CD+TCGB。)， 六 =12…,M 


jaD=2TCse6。) 
m=l 











ei 


在 前 向 分 步 算法 的 第 加 步 ， 给 定 当前 模型 /, (x) ， 需 求解 
O, =argminS L(y, fa(%) +70%;0,)) 
» tel 


得 到 斧 ,， 即 第 m 棵 树 的 参数 . 
当 采 用 平方 误差 损失 函数 时 ， 


ZO:7CD)=O-7CD) 


其 损失 变 为 
LO, fni(¥)+T(x;O,)) 
=[y7 -f(D -T(x;0,)T 
=[r—7T(x;©,) 
这 里 ， 


r=y- fna(%) 


(8.27) 


是 当前 模型 拟 合 数据 的 残 差 (residual)， 所 以 ， 对 回归 问题 的 提升 树 算法 来 说 ， 


只 需 简单 地 拟 合 当前 模型 的 残 差 . 这 样 ， 算 法 是 相当 简单 的 ， 现 将 回 


升 树 算法 叙述 如 下 . 
算法 8.3《〈 回 归 问 题 的 提升 树 算法 ) 














归 问 题 的 提 


输入 : 训练 数据 集 了 = fa 为 ) (00 六) (Cowypw)} ,AE XCR", peycR; 


输出 : 提升 树 / (zx) . 
(1) 初始 化 有 (x)=0 
(2) 对 m=1,2,…,M 
(a) 按 式 (8.27) 计算 残 差 


rm = Pi fma(s), i=b2,,N 


Cb)》 拟 合 残 差 ,学 习 一 个 回归 树 ， 得 到 T(x;@,) 
Cc) 更 新 大 = 大 ,CO+TCse) 


8.4_ 提 升 树 149 





(3) 得 到 回归 问题 提升 树 

uD=>Tx;0,) 四 
= 

例 8.2 已 知 如 表 8.2 所 示 的 训练 数据 ，x 的 取 值 范围 为 区 间 [0.5,10.5]，y 的 


取 值 范围 为 区 间 {5.0,10.0]， 学 习 这 个 回归 问题 的 提升 树 模型 ， 考 虑 只 用 树桩 作为 
基 函 数 . 











表 8.2 训练 数据 表 
加 1 2 4 5 6 了 8 9 10 
Ph 556 570 591 640 680 705 890 870 900 9.05 








解 按照 算法 83， 第 1 步 求 帮 Co) 即 回归 树 卫 (zx) ， 
首先 通过 以 下 优化 问题 : 


mn min D0 -a +min 3 -| 
了 | sen eh 
求解 训练 数据 的 切 分 点 s : 
R={x|x<s}, R={x|x>s} 
容易 求 得 在 R，R, 内 部 使 平方 损失 误差 达到 最 小 值 的 c,, c, 为 
1 1 
bi a 


1 568 2 xeR 
这 里 N,N, 是 有 届 , R, 的 样本 点 数 . 
求 训练 数据 的 切 分 点 ， 根 据 所 给 数据 ， 考 虑 如 下 切 分 点 : 
1.5，2.5，3.5，4.5，5.5，6.5，7.5，8.5，9.5 
对 各 切 分 点 ， 不 难 求 出 相应 的 RR,, c,, cy 及 
m(s) = min > -0) +min > 0) 
得 eR a 


eR 
例如 ， 当 s=1.5 时 ，R = 和 纳 ，R,={2,3,…,10}，c,=5.56，c, =7.50， 
ms)=min 2 -a) +min 2 (一 co 并 =0+15.72=15.72 

6 汪 


ER 
现 将 s 及 m(s) 的 计算 结果 列表 如 下 ( 见 表 8.3). 
表 8.3 计算 数据 表 


了 1.5 2.5 3.5 4.5 5.5 6.5 5: 8.5 9.5 
m(s) 15.72 12.07 8.36 5.78 3.91 1.93 8.01 11.73 15.74 
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表 8.3 可 知 , 当 s = 6.5 时 m(s) 达到 最 小 值 ,此 时 R= {1,2,…,6}, R,= {7,8,9,10}， 
c=6.24，c, =8.91， 所 以 回归 树 刀 (xz) 为 


























6.24， x<6.5 
10= 人 x>>6.5 
WO=T0 
f(x) 拟 合 训练 数据 的 残 差 见 表 8.4， 表 中 ,= yy 一 f(x%)，i=1,2,…,10.. 
表 8.4 残 差 表 
海 2 3 4 5 6 7 8 9 10 
Fy -0.68 -0.54 -0.33 0.16 0.56 0.81 -0.01 -0.21 0.09 0.14 


用 f(x) 拟 合 训 练 数据 的 平方 损失 误差 : 
10 
LO,f0)= 0, -fm)) =193 
i=l 


第 2 步 求 (x). 方法 与 求 T(x) 一样， 只 是 拟 合 的 数据 是 表 8.4 的 残 差 ,可 
以 得 到 : 


-052 x<35 


T= fe x>3.5 


5.72, x<3.5 
万 CD = OO+ 了 (CO =16.46, 3.5<x<6.5 
9.13, x>6.5 


用 万 (9 拟 合 训练 数据 的 平方 损失 误差 是 
1 
ZO,f0) = 0 AG) =0.79 
il 


继续 求 得 
0.15。 x<6.5 
3 的 = 人 x>6.5 


-0.16, x<4.5 
z= 人 245 LO,f0)=0.30, 


L(y, f(x))=0.47, 


-0.11]， x>6.5 
= x<25 


六 后 = 全 xz<65 0.f0)2023, 
fe x>2.5 
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f= FT =TO++T+T) 
5.63, 多 宝玉 过 
5.82, 2.5<x<3.5 
=46.56, 3.5<x<4.5 
6.83, 4.5<x<6.5 
8.95, =>6.5 
用 (x) 拟 合 训练 数据 的 平方 损失 误差 是 
10 
LO = f(x) =0.17 
假设 此 时 已 满足 误差 要 求 ， 那 么 f(x) = (x) 即 为 所 求 提升 树 . 四 
8.4.3 ”梯度 提升 


提升 树 利用 加 法 模型 与 前 向 分 步 算法 实现 学 习 的 优化 过 程 ， 当 损失 函数 是 平 
方 损 失 和 指数 损失 函数 时 ， 每 一 步 优 化 是 很 简单 的 .但 对 一 般 损失 函数 而 言 ， 往 
往 每 一 步 优 化 并 不 那么 容易 . 针对 这 一 问题 ,Freidman 提出 了 梯度 提升 (gradient 
boosting) 算法 ， 这 是 利用 最 速 下 降 法 的 近似 方法 ， 其 关键 是 利用 损失 函数 的 负 
梯度 在 当前 模型 的 值 


-See 
of (x) f(x)= At(z) 


作为 回归 问题 提升 树 算法 中 的 残 差 的 近似 值 ， 拟 合 一 个 回归 树 . 

算法 8.4〈 梯 度 提升 算法 ) 

输入 : 训练 数据 集 了 = {6,7),(%, p(xyspw)}， AnEXCR', yeycR; 
损失 函数 L(y, f(x)) ; 

输出 : 回归 树 f(x) . 

(1) 初始 化 


A =argminy LO,0) 


(2) 对 m=1,2,…,M 
(a) 对 i=1,2…,N ， 计 算 


-| Gf) 


党 | of (x,) | 


Cb) 对; 拟 合 一 个 回归 树 ， 得 到 第 m 棵 树 的 叶 结 点 区 域 R, ，j=1,2,…,J 
(ce) 对 7=1,2,…,J ， 计 算 
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cw =argmin 2 Lp, fs(%)+o) 
ER 


(d) 更 新 大 O= 太 ,CO+ 立 curlxeR) 
(3) 得 到 回归 树 所 





2 M 了 
F=f = > De lre Ru) nu 


算法 第 1 步 初始 化 ， 估 计 使 损失 函数 极 小 化 的 常数 值 ， 它 是 只 有 一 个 根 结 点 
的 树 .第 2 (a) 步 计算 损失 函数 的 负 梯度 在 当前 模型 的 值 ,将 它 作为 残 差 的 估计 .对 
于 平方 损失 函数 ， 它 就 是 通常 所 说 的 残 差 ， 对 于 一 般 损 失 函 数 ， 它 就 是 残 差 的 近 
似 值 . 第 2 (b) 步 估计 回归 树叶 结 点 区 域 ， 以 拟 合 残 差 的 近似 值 . 第 2 (c) 步 利用 线 
性 搜索 估计 叶 结 点 区 域 的 值 ， 使 损失 函数 极 小 化 ， 第 2 (d) 步 更 新 回归 树 ， 第 3 步 
得 到 输出 的 最 终 模型 了 (x) . 





本 章 概 要 


1. 提升 方法 是 将 弱 学 习 算 法 提升 为 强 学 习 算 法 的 统计 学 习 方法 .在 分 类 学 
习 中 ， 提 升 方法 通过 反复 修改 训练 数据 的 权 值 分 布 ， 构 建 一 系列 基本 分 类 器 〈 弱 
分 类 器 )， 并 将 这 些 基 本 分 类 器 线性 组 合 ， 构 成 一 个 强 分 类 器 . 代表 性 的 提升 方 
法 是 AdaBoost 算法 . 

AdaBoost 模型 是 弱 分 类 器 的 线性 组 合 : 


Ja= 立 xsG.O 


2. AdaBoost 算法 的 特点 是 通过 迭代 每 次 学 习 一 个 基本 分 类 器 . 每 次 迭代 中 ， 
提高 那些 被 前 一 轮 分 类 器 错误 分 类 数据 的 权 值 ， 而 降低 那些 被 正确 分 类 的 数据 的 
权 值 . 最 后 ，AdaBoost 将 基本 分 类 器 的 线性 组 合作 为 强 分 类 器 ， 其 中 给 分 类 误差 
率 小 的 基本 分 类 器 以 大 的 权 值 ， 给 分 类 误差 率 大 的 基本 分 类 器 以 小 的 权 值 . 

3. AdaBoost 的 训练 误差 分 析 表 明 ，AdaBoost 的 每 次 迭代 可 以 减少 它 在 训练 
数据 集 上 的 分 类 误差 率 ， 这 说 明了 它 作 为 提升 方法 的 有 效 性 . 

4， AdaBoost 算法 的 一 个 解释 是 该 算法 实际 是 前 向 分 步 算法 的 一 个 实现 . 在 
这 个 方法 里 ， 模 型 是 加 法 模型 ， 损 失 函数 是 指数 损失 ， 算 法 是 前 向 分 步 算法 ， 

每 一 步 中 极 小 化 损失 函数 


N 
(Bs7n) =arg min 2 L(y fn ls) + Bobs;))) 


得 到 参数 ,7 
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5. 提升 树 是 以 分 类 树 或 回归 树 为 基本 分 类 器 的 提升 方法 .提升 树 被 认为 是 
统计 学 习 中 最 有 效 的 方法 之 一 . 


继续 阅读 


提升 方法 的 介绍 可 参见 文献 [1, 2]. PAC 学 习 可 参见 文献 [3]. 强 可 学 习 与 弱 可 学 
习 的 关系 可 参见 文献 [4]， 关 于 AdaBoost 的 最 初 论文 是 文献 [5]. 关于 AdaBoost 的 
前 向 分 步 加 法 模型 解释 参见 文献 [6], 提升 树 与 梯度 提升 可 参见 文献 [6, 7]. AdaBoost 
只 是 用 于 二 类 分 类 ，Schapire 与 Singer 将 它 扩展 到 多 类 分 类 问题 中，AdaBoost 与 
逻辑 斯 谤 回归 的 关系 也 有 相关 研究 四 . 


习 - 题 


8.1 某 公司 招 聘 职 员 考 查 身体 、 业 务 能 力 、 发 展 潜力 这 3 项 ， 身 体 分 为 合格 1、 
不 合格 0 两 级 ， 业 务 能 力 和 发 展 潜力 分 为 上 1、 中 2、 下 3 三 级 . 分 类 为 合 
格 1、 不 合格 -1 两 类 . 已 知 10 个 人 的 数据 ， 如 下 表 所 示 . 假设 弱 分 类 器 为 
决策 树 柱 ， 试 用 AdaBoost 算法 学 习 一 个 强 分 类 器 . 





应 聘 人 员 情况 数据 表 
1 2 3 4 5 6 了 8 9 10 
身体 0 0 1 1 1 0 1 1 1 0 
业务 1 3 2 1 2 1 1 1 3 2 
潜力 3 1 2 3 3 2 上- 1 1 1 
分 类 -I -1 -1 -1 -1l -l 1 1 -1 -1 





8.2 比较 支持 向 量 机 、AdaBoost、 远 辑 斯 谤 回归 模型 的 学 习 策略 与 算法 . 
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第 9 章 EM 算法 及 其 推广 


EM 算法 是 一 种 迭代 算法 ，1977 年 由 Dempster 等 人 总 结 提出 ， 用 十 含有 隐 
变量 (hidden variable) 的 概率 模型 参数 的 极 大 似 然 估计 ， 或 极 大 后 验 概率 估计 . 
EM 算法 的 每 次 迭代 由 两 步 组 成 :EE 步 ， 求 期 望 expectation); M 步 ， 求 极 大 
(maximization )， 所 以 这 一 算法 称 为 期 望 极 大 算法 〈expectation maximization 
algorithm), 简称 EM 算法 . 本 章 首先 叙述 EM 算法 ， 然 后 讨论 EM 算法 的 收敛 性 ; 
作为 EM 算法 的 应 用 ， 介 绍 高 斯 混合 模型 的 学 习 ; 最 后 叙述 EM 算法 的 推广 一 一 
GEM 算法 . 


9.1 EM 算法 的 引入 


概率 模型 有 时 既 含有 观测 变量 (observable variable)， 又 含有 隐 变 量 或 潜在 变 
量 (latent variable)， 如 果 概率 模型 的 变量 都 是 观测 变量 ， 那 么 给 定数 据 ， 可 以 直 
接 用 极 大 似 然 估计 法 ， 或 贝 叶 斯 估计 法 估计 模型 参数 .但 是 ， 当 模型 含有 隐 变 量 
时 ， 就 不 能 简单 地 使 用 这 些 估计 方法 ，EM 算法 就 是 含有 隐 变 量 的 概率 模型 参数 
的 极 大 似 然 估计 法 ， 或 极 大 后 验 概率 估计 法 .我 们 仅 讨论 极 大 似 然 估 计 ， 极 大 后 
验 概率 估计 与 其 类 似 . 


9.1.1 EM 算法 


首先 介绍 一 个 使 用 EM 算法 的 例子 . 

例 9.1( 三 硬币 模型 》 假设 有 3 枚 硬币 ， 分 别 记 作 A，B，C. 这 些 硬币 正面 
出 现 的 概率 分 别 是 有 x，p 和 gq . 进行 如 下 掷 硬币 试验 : 先 掷 硬币 A， 根 据 其 结果 
选 出 硬币 B 或 硬币 C， 正 面 选 硬币 B， 反 面 选 硬 币 C; 然后 掷 选 出 的 硬币 ， 掷 硬币 
的 结果 , 出 现 正面 记 作 1, 出 现 反面 记 作 0; 独立 地 重复 n 次 试验 (这里, n=10)， 
观测 结果 如 下 ; 





1,1,0,1,0,0,1,0,1,1 


假设 只 能 观测 到 掷 硬币 的 结果 ， 不 能 观测 掷 硬币 的 过 程 . 问 如 何 估计 三 硬币 正面 
出 现 的 概率 ， 即 三 硬币 模型 的 参数 . 
解 三 硬币 模型 可 以 写作 


P(y|10)= DP(y,z10)=5,P(z|0)P(y|z,0) 
=zP"0-P)? + 1 
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这 里 ， 随 机 变量 y 是 观测 变量 ， 表 示 一 次 试验 观测 的 结果 是 1 或 0， 随 机 变量 z 
是 隐 变 量 ， 表 示 未 观测 到 的 掷 硬币 A 的 结果 ; 8= (Xx,p,9) 是 模型 参数 .这 一 模 
型 是 以 上 数据 的 生成 模型 . 注意， 随机 变量 y 的 数据 可 以 观测 ， 随 机 变量 z 的 数 
据 不 可 观测 . 

将 观测 数据 表示 为 Y=(F, 卫 ,…, 卫 )"， 未 观测 数据 表示 为 Z = (21,2,,…,2,)"， 
则 观测 数据 的 似 然 函数 为 


P(Y|0)= DP(Z10)P(Y|2,0) (9.2) 
了 
即 
P(Y10)= Hom (1-p)* +0-x)g” (gq) ™”] (9.3) 
yi 
考虑 求 模型 参数 9 = (A, p,q) 的 极 大 似 然 估计 ， 即 
6=argmaxlog P(Y|0) (9.4) 


这 个 问题 没有 解析 解 ， 只 有 通过 迭代 的 方法 求解 ， EM 算法 就 是 可 以 用 于 求解 
这 个 问题 的 一 种 迭代 算法 . 下 面 给 出 针对 以 上 问题 的 EM 算法 , 其 推导 过 程 省 略 . 

EM 算法 首先 选取 参数 的 初 值 ， 记 作 9% = (ro , pm,qg0) ， 然 后 通过 下 面 的 
步骤 和 欠 代 计算 参数 的 估计 值 ， 直 至 收敛 为 止 ， 第 在 次 迭代 参数 的 估计 值 为 
60 = (0,p0,99) .EM 算法 的 第 i+1 次 和 迭代 如 下 . 

卫 步 : 计算 在 模型 参数 xz ，p0 ，940 下 观测 数据 蕊 来 自 抑 硬币 B 的 概率 


CHD 一 x0 pO- pO) 





i AOpOP (1- po >” +(] 一 7 )(gO 六 (- go 入 7 (9.5) 
M 步 : 计算 模型 参数 的 新 估计 值 
XD -2 宛 en (9.0) 
六 Dy, 
po = 全 一 一 (9.7) 
> Pi 
Sa 
ge = jl (9.8) 


Za- 
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进行 数字 计算 . 假设 模型 参数 的 初 值 取 为 
X=0.5, p=0.5, qu =0.5 





由 式 (9.5)， 对 y=1 与 y) =0 均 有 J? =0.5. 
利用 迭代 公式 (9.6) 一 (9.8)， 得 到 


XV =05, p=0.6, gq" =0.6 


由 式 (9.5) ， 
HA® =0.5, j=1,2,…,10 
继续 迭代 ， 得 
XY =0.5, p=0.6, g*=0.6 


于 是 得 到 模型 参数 9 的 极 大 似 然 估 计 : 
存 =0.5， 万 =0.6，6=0.6 

下 =0.5 表示 硬币 A 是 均匀 的 ， 这 一 结果 容易 理解 . 

如 果 取 初 值 ro =0.4，p®" =0.6，g =0.7， 那么 得 到 的 模型 参数 的 极 大 似 
然 估 计 是 丰 = 0.4064 ， 户 =0.5368 ，9 = 0.6432 .这 就 是 说 ， EM 
择 有 关 ， 选 择 不 同 的 初 值 可 能 得 到 不 同 的 参数 估计 值 . 

一 般 地 ， 用 了 表示 观测 随机 变量 的 数据 ，Z 表示 隐 随 机 变量 的 数据 . y 和 2 
连 在 一 起 称 为 完全 数据 (complete-data )， 观 测 数据 Y 又 称 为 不 完全 数据 
(incomplete-data). 假设 给 定 观测 数据 7， 其 概率 分 布 是 P(Y|9) ， 其 中 8 是 需要 
估计 的 模型 参数 ， 那 么 不 完全 数据 7 的 似 然 函数 是 P(Y19) ， 对 数 似 然 函数 
ZL(6)=logP(Y10); 假设 Y 和 2Z 的 联合 概率 分 布 是 P(Y,Z19)， 那 么 完全 数据 的 对 
数 似 然 函数 是 log P(Y,Z10). 

EM 算法 通过 迭代 求 L(9) = log P(Y19) 的 极 大 似 然 估 计 . 每 次 迭代 包含 两 步 : 
BE 步 ， 求 期 望 ，M 步 ， 求 极 大 化 ， 下 面 来 介绍 EM 算法 . 

算法 9.1 (EM 算法 ) 

输入 : 观测 变量 数据 了 ， 隐 变量 数据 Z ， 联 合 分 布 P(Y,Z10) ， 条 件 分 布 
P(Z1Z6); 

输出 ， 模型 参数 9 . 

(1) 选择 参数 的 初 值 0% ， 开 始 迭 代 ; 

(2) E 步 : 记 29 为 第 i 次 迭代 参数 8 的 估计 值 ， 在 第 ;+1 次 欠 代 的 下 步 ， 计 算 


Q(0,0°)= EllogP(Y,Z|0)|Y,0°] 
=D,logP(Y,Z|O)P(Z1Y,0°) (9.9) 
也 
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这 里 ，P(Z1Z,6o) 是 在 给 定 观测 数据 了 和 当前 的 参数 估计 9 下 隐 变 量 数据 Z 的 

条 件 概率 分 布 ， 
(3) M 步 : 求 使 QO(9,9) 极 大 化 的 8， 确定 第 i+1 次 迁 代 的 参数 的 估计 值 go 
po =argmax Q(0,0") (9.10) 


(4) 重复 第 (2) 步 和 第 (3) 步 ， 直 到 收敛. 站 

式 (9.9) 的 函数 QO(6,9") 是 EM 算法 的 核心 ， 称 为 2 函数 (CO function). 

定义 9.1( @ 函数 ) 完全 数据 的 对 数 似 然 函 数 log P(Y,Z 19) 关于 在 给 定 观测 
数据 了 和 当前 参数 949 下 对 未 观测 数据 Z 的 条 件 概率 分 布 P(Z 1Y,9") 的 期 望 称 
为 @ 函数 ， 即 





Q(6,0°)=E,llogP(Y,Z|10)|Y,6°] (9.11) 


下 面 关于 EM 算法 作 几 点 说 明 : 

步骤 (1) 参数 的 初 值 可 以 任意 选择 ， 但 需 注 意 EM 算法 对 初 值 是 敏感 的 . 

步骤 (2) 了 步 求 2(8,90) ， 2 函数 式 中 2Z 是 未 观测 数据 ， 了 是 观测 数据 , 注 
意 ，Q(9,6") 的 第 1 个 变 元 表示 要 极 大 化 的 参数 ， 第 2 个 变 元 表示 参数 的 当前 估 
计 值 .每 次 迭代 实际 在 求 @ 函数 及 其 极 大 . 

步骤 (3) M 步 求 (69,6") 的 极 大 化 ,得 到 2? ， 完 成 一 次 迭代 60 一 60 ， 
后 面 将 证 明 每 次 迭代 使 似 然 函 数 增 大 或 达到 局 部 极 值 . 

步骤 (4) 给 出 停止 欠 代 的 条 件 ， 一 般 是 对 较 小 的 正 数 引 ,e; ， 若 满足 


le -eolka 或 1080)-GC0,6o)lka 
则 停止 选 代 , 


9.1.2 ”EM 算法 的 导出 


上 面 叙述 了 EM 算法 . 为 什么 EM 算法 能 近似 实现 对 观测 数据 的 极 大 似 然 估 
计 呢 ? 下 面 通过 近似 求解 观测 数据 的 对 数 似 然 函数 的 极 大 化 问题 来 导出 EM 算 
法 ， 由 此 可 以 清楚 地 看 出 EM 算法 的 作用 . 

我 们 面 对 一 个 含有 隐 变 量 的 概率 模型 , 目标 是 极 大 化 观测 数据 (不 完全 数据 ) 
了 关于 参数 8 的 对 数 似 然 函 数 ， 即 极 大 化 


L(0) =logP(Y10)=l0g DP(Y,210) 
了 





(9.12) 
= ve (5 P(Y|2Z,0)P(Z| 0)] 


注意 到 这 一 极 大 化 的 主要 困难 是 式 (9.12) 中 有 未 观测 数据 并 有 包含 和 (或 积分 ) 
的 对 数 . 
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事实 上 , EM 算法 是 通过 迭代 逐步 近似 极 大 化 二 9) 的 . 假设 在 第 i 次 迭代 后 6 
的 估计 值 是 9® ， 我 们 希望 新 估计 值 9 能 使 Z(8) 增 加 ， 即 K(8) > Z(9) ， 并 逐步 
达到 极 大 值 、 为 此 ， 考 虑 两 者 的 差 : 


Z(B)- Ze)= bi 12Z,0)P(Z| 0 -log Pr16o) 
z 
利用 Jensen 不 等 式 (Jensen inequality) 得 到 其 下 界 : 


L(0)-L(0®)= ld Z,0° 9] ~logP(Y10°) 
2z 


P(Y|2,0°) 
P(Y|2,0)P(Z10) 
P(Z|Y,60°) 
P(Y|2,0)P(Z10) 
P(Z1Y,60°)P(716®) 


> SP IY,0°)log —logP(Y|0") 


=D,P(ZIY,0°)1log 
z 


令 
B(O.0) L(G 站 P(Y|2,0)P(Z 10) 
(0,0")a1L(0 )+2 P21Y,0 og F(z1Y DPI (9.13) 
则 
L(0)> B(0,0°) (9.14) 
即 函 数 B(9,9") 是 ZL(9) 的 一 个 下 界 ， 而 且 由 式 (9.13) 可 知 ， 
Z(90)= B(90,90) (9.15) 


因此 ， 任 何 可 以 使 B(,20) 增 大 的 9 ， 也 可 以 使 Z(O) 增 大 .为 了 使 Z(8) 有 尽 可 
能 大 的 增长 ， 选 择 g4" 使 B(8,90) 达到 极 大 ， 即 


Er0 = argmax B(O, 6°) E (9.16) 


现在 求 G0*" 的 表达 式 . 省 去 对 8 的 极 大 化 而 言 是 常数 的 项 , 由 式 (9.16) 、 式 (9.13) 
及 式 (9.10)， 有 


ou = | L(0%)+ TPZIY.00)1og_ PLZ,0)P(Z10) ] 
2 


P(Z| 郊 920)PCZ190) 

= emg (SF P(Z|Y,0°)log(P(Y|2,0)P(Z| 0)] 

= remy 并 PC |Y,0°)logP(Y,Z| 9 

=argmax Q(6,0") (9.17) 


式 (9.17) 等 价 于 EM 算法 的 一 次 先 代 ， 即 求 @ 函数 及 其 极 大 化 ，EM 算法 是 通过 
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不 断 求解 下 界 的 极 大 化 逼近 求解 对 数 似 然 函 数 极 大 化 的 算法 . 

图 9.1 给 出 EM 算法 的 直观 解释 . 图 中 上 方 曲线 为 L(9) ， 下 方 曲线 为 
B(8,90)， 由 式 (9.14)，B(9,9”) 为 对 数 似 然 函数 L(9) 的 下 界 ， 由 式 (9.15)， 两 个 
函数 在 点 9= 90 处 相等 .由 式 (9.16) 和 式 (9.17)，EM 算法 找到 下 一 个 点 9" 使 
函数 B(6,9) 极 大 化 ， 也 使 函数 OQ(6,8) 极 大 化 . 这 时 由 于 L(9)> B(2.90)， 函 
数 B(6,6) 的 增加 ， 保 证 对 数 似 然 函数 L(9) 在 每 次 迭代 中 也 是 增加 的 . EM 算法 
在 点 BC 重新 计算 @ 函数 值 ， 进 行 下 一 次 迭代 .在 这 个 过 程 中 ， 对 数 似 然 函数 
Z(6) 不 断 增 大 ， 从 图 可 以 推断 出 EM 算法 不 能 保证 找到 全 局 最 优 值 . 





LO 
LO 





了 CD=BBOEO 








poe 
图 9.1 EM 算法 的 解释 


9.1.3 EM 算法 在 非 监 督学 习 中 的 应 用 


监督 学 习 是 由 训练 数据 fa, 世 ) Ca, 力 )… (xcwsw)} 学 习 条 件 概率 分 布 
P(Y|XX) 或 决策 函数 了 = f(X) 作为 模型 ， 用 于 分 类 、 回 归 、 标 注 等 任务 . 这 时 训 
练 数据 中 的 每 个 样本 点 由 输入 和 输出 对 组 成 . 

有 时 训练 数据 只 有 输入 没有 对 应 的 输出 {(%4,:),(%,…),…,(xy,*’}， 从 这 样 的 数 
据 学 习 模型 称 为 非 监督 学 习 问 题 ， EM 算法 可 以 用 于 生成 模型 的 非 监督 学 习 ， 生 
成 模型 由 联合 概率 分 布 P(X,7) 表示， 可 以 认为 非 监督 学 习 训练 数据 是 联合 概率 
分 布 产生 的 数据 . 六 为 观测 数据 ， 了 为 未 观测 数据 . 


9.2 EM 算法 的 收敛 性 


EM 算法 提供 一 种 近似 计算 含有 隐 变 量 概率 模型 的 极 大 似 然 估计 的 方法 . EM 
算法 的 最 大 优点 是 简单 性 和 普 适 性 .我 们 很 自然 地 要 问 : EM 算法 得 到 的 估计 序 
列 是 否 收敛 ? 如 果 收 敛 ， 是 否 收敛 到 全 局 最 大 值 或 局 部 极 大 值 ? 下 面 给 出 关于 
EM 算法 收敛 性 的 两 个 定理 . 
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定理 91 设 PC 了 16) 为 观测 数据 的 似 然 函数 ，29 (i=12,…) 为 EM 算法 得 到 
的 参数 估计 序列 ，P(Z169) (i=1,2,…) 为 对 应 的 似 然 函 数 序列 ， 则 PCY1690) 是 单 
调 递增 的 ， 即 





P(Y|0"")> P(7190) (9.18) 
证 明 由 于 
p0710) = PC.Z19) 
P(Z1Y,0) 
取 对 数 有 
logP(Y|0)=1ogP(Y,Z|0)-logP(Z|Y,0) 
由 式 (9.11) 
Q(6,0°)= DlogP(Y,Z10)P(Z1Y,0") 
. 
令 
H(0,0°)= YlogP(Z|Y,0)P(Z1Y,0°) (9.19) 
于 是 对 数 似 然 函 数 可 以 写成 
logP(Y10)=Q(0,6°)-H(0,0°) (9.20) 


在 式 (9.20) 中 分 别 取 96 为 6” 和 6? 并 相 减 ， 有 
logP(Y|0"")-—logP(Y|6®°) 
=[Q(0"Y,0°)-Q(0°,0°)-[H(O"",0°)-H(O,0°)] (9.21) 
为 证 式 (9.18) ， 只 需 证 式 (9.21) 右 端 是 非 负 的 ， 式 (9.21) 右 端 的 第 1 项 ， 上 
于 0 使 Q(9,6) 达 到 极 大 ， 所 以 有 
Q(0"" ,60) -0(0°,0°)>=0 (9.22) 
其 第 2 项， 由 式 (9.19) 可 得 : 
H(OY,0°)-H(0®,0%) 


P(Z|Y,0" , 
三 3 PCZ1Z6o) 


P(ZIY,0" 
< bg IE | reo)] 


=log P(Zi17,gero)=0 (9.23) 
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这 里 的 不 等 号 由 Jensen 不 等 式 得 到 
由 式 (9.22) 和 式 (9.23) 即 知 式 (9.21) 右 端 是 非 负 的 . 上 
定理 9.2 设 L(9)=logP(Y|19) 为 观测 数据 的 对 数 似 然 函数 ，9 (i=1,2,…) 
为 EM 算法 得 到 的 参数 估计 序列 ，L(6) (i=1,2,…) 为 对 应 的 对 数 似 然 函数 序列 
(1) 如 果 P(Y16) 有 上 界 ， 则 Z(82)=log PC71699) 收敛 到 某 一 值 己 ， 
(2) 在 函数 2(2,2) 与 (6) 满足 一 定 条 件 下 ， 由 EM 算法 得 到 的 参数 估计 序 
列 60 的 收敛 值 9* 是 Z(6) 的 稳定 点 . 
证 明 (1) 由 Z(2)=logP(7199) 的 单调 性 及 P(7|68) 的 有 界 性 立即 得 到 . 
(2) 证 明 从 略 ， 参 阅 文献 [6]. nm 
定理 9.2 关于 函数 2(6,9) 与 (6) 的 条 件 在 大 多 数 情况 下 都 是 满足 的 . EM 算 
法 的 收敛 性 包含 关于 对 数 似 然 函 数 序列 5(80) 的 收敛 性 和 关于 参数 估计 序列 9 
的 收敛 性 两 层 意思 ， 前 者 并 不 蕴涵 后 者 . 此外， 定理 只 能 保证 参数 估计 序列 收敛 
到 对 数 似 然 函数 序列 的 稳定 点 ， 不 能 保证 收敛 到 极 大 值 点 . 所 以 在 应 用 中 ， 初 值 
的 选择 变 得 非常 重要 ， 常 用 的 办 法 是 选取 几 个 不 同 的 初 值 进行 迭代 ， 然 后 对 得 到 
的 各 个 估计 值 加 以 比较 ， 从 中 选择 最 好 的 . 


9.3 EM 算法 在 高 斯 混合 模型 学 习 中 的 应 用 


EM 算法 的 一 个 重要 应 用 是 高 斯 混合 模型 的 参数 估计 .高 斯 混合 模型 应 用 广 
泛 ， 在 许多 情况 下 ，EM 算法 是 学 习 高 斯 混合 模型 (Gaussian misture model) 的 有 
效 方法 . 


9.3.1 高 斯 混合 模型 
定义 9.2〈 高 斯 混合 模型 〉 高 斯 混合 模型 是 指 具 有 如 下 形式 的 概率 分 布 模型 ， 





Kk 
PO19)= >,0.0010.) (9.24) 
k=l 


其 中 ， 是 系数 ，&, > 0， y 0 =1 1&) 是 高 斯 分 布 密度 ，& = (az)， 
1 人 一 AD 
G10.)=———exp| -4A) 
716) V2rno, | 207 ] (925) 
称 为 第 个 分 模型 . 


一 般 混合 模型 可 以 由 任意 概率 分 布 密度 代替 式 (9.25) 中 的 高 斯 分 布 密度 ， 我 
们 只 介绍 最 常用 的 高 斯 混合 模型 . 
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9.3.2 高 斯 混合 模型 参数 估计 的 EM 算法 
假设 观测 数据 , 疡 ，….,Dw 由 高 斯 混合 模型 生成 ， 
P10 -Dopol0) (9.26) 
其 中 ,9=(@,0,… tc;9,0.,…,B.) ,我们 用 EM 算法 估计 高 斯 混合 模型 的 参数 
1， 明 确 隐 变 量 ， 写 出 完全 数据 的 对 数 似 然 函数 


可 以 设想 观测 数据 ，7 =1,2,…,N ， 是 这 样 产生 的 : 首先 依 概率 o% 选择 第 
个 高 斯 分 布 分 模型 g(y|8.); 然后 依 第 大 个 分 模型 的 概率 分 布 Wy|&) 生成 观测 
数据 y, .这 时 观测 数据 y, ，j=1,2,…, ， 是 已 知 的 ; 反映 观测 数据 y, 来 自 第 
个 分 模型 的 数据 是 未 知 的 ，k=1,2,…,K ， 以 隐 变 量 y 表示 ， 其 定义 如 下 : 


_ 1， 第 /个 观测 来 自 第 个 分 模型 
Yr “10， 否则 


j=b2,,N; k=1,2,…,K (9.27) 
XV 是 0-1 随机 变量 . 
有 了 观测 数据 y, 及 未 观测 数据 yx ， 那 么 完全 数据 是 


pn pa x) f=, N 
于 是 ， 可 以 写 出 完全 数据 的 似 然 函数 : 
N 
P(y,710)=T 1PG,,7n 7 x 10) 
j=l 


KN Ya 
=I111[e.¢0, 16.)] 

天 N 9 
=]Ie*1I[¢0,10.)] 

k=] j=l 


fon ©,-47 
=TTo” hf 
HI ” 各 并 oo 20. | 


N kK 
式 中 ， m= rs n=N. 
j=1 k=1 
那么 ， 完 全 数据 的 对 数 似 然 函数 为 





¢ & 此 1 
logP(y,7|0)= 1 +Y zlog|- 一 |-1 ——=(y,-AY 
og P(y,710) 2 ogo mlee( 起 ] og 0 5570 | (9.28) 
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2. EM 算法 的 E 步 : 确定 0 函数 
Q(0,0°)= Ellog P(y,710)|y,0°] 


K NV 1 
= 中 多 logo, to [ee[ 专 -man -23070 -| 
x fx y 1 1 
{eense Srlee (Ee -390 -my 


ed 


这 里 需要 计算 Ey |y,0) ， 记 为 六 . 


ph = Ey 1»,0) = Py =11y,0) 
__POA =b»,10) 


3 
Pn =1,y,10) 
__PQO,|7n =1,0)P(y, =110) 
= 
PO |7n =1,0)P(y =110) 
k=l 
-cpoil4) ， 了 =12…, Ni 大 =12 ,天 
PO 160) 
欠 是 在 当前 模型 参数 下 第 7 个 观测 数据 来 自 第 大 个 分 模型 的 概率 ， 称 为 分 模型 
对 观测 数据 yy 的 响应 度 . 
将 记 =Eyn 及 四 = > Ey 代入 式 (9.28) 即 得 
气 


一 & 1 1 
Q(0,0°)= Zn log os + 之 加 |o[ 专 ]-mea -3670 -ny | (9.29) 


3， 确 定 EM 算法 的 M 步 
和 迭代 的 M 步 是 求 函数 0(g,60) 对 8 的 极 大 值 ， 即 求 新 一 轮 迁 代 的 模型 参数 ; 
0 =argmax Q(0,0") 
用 所， 家 及 态 , 丰 =12…, 天 ,表示 6 的 各 参数 . 求 应 ，62 只 需 将 式 (9.29) 
分 别 对 从 ， 避 求 偏 导数 并 令 其 为 0， 即 可 得 到 ; 求 避 是 在 部 0 -1 条 件 下 求 偏 
导数 并 令 其 为 0 得 到 的 ， 结 果 如 下 : 站 
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及 





Dy 
hh= 人 ,k=12,%,K (9.30) 
> 
j=l 
. 
>-—A) 
= k=b2,K (9.31) 
2 
气 
有 
2 
== k=1,2,,K 9.32 
a 1 (9.32) 


重复 以 上 计算 ， 直 到 对 数 似 然 函数 值 不 再 有 明显 的 变化 为 止 ， 
现 将 估计 高 斯 混合 模型 参数 的 EM 算法 总 结 如 下 : 

算法 9.2 (高 斯 混合 模型 参数 估计 的 EM 算法 ) 

输入 ;观测 数据 ,2，…,yw ， 高 斯 混合 模型 ， 

输出 ， 高 斯 混合 模型 参数 . 

(1) 取 参 数 的 初始 值 开 始 选 代 

(2) EE 步 :依据 当前 模型 参数 ， 计 算 分 模型 上 对 观测 数据 y 的 响应 度 
og0,10) 


二 J 了 =12…N， k=1,2,.…,K 
Pagly,10.) 
k= 


P= 


(3) M 步 : 计算 新 一 轮 迭 代 的 模型 参数 








= k=1,2,…,K 
N 


(4) 重复 第 (2) 步 和 第 (3) 步 ， 直 到 收敛 . 中 
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9.4 EM 算法 的 推广 


EM 算法 还 可 以 解释 为 函数 F function) 的 极 大 - 极 大 算法 (maximization- 
maximization algorithm)， 基 于 这 个 解释 有 若干 变形 与 推广 ， 如 广义 期 望 极 大 
《generalized expectation maximization，GEM) 算法 .下面 予以 介绍 . 


9.4.1 下 函数 的 极 大 - 极 大 算法 


首先 引进 函数 并 讨论 其 性 质 . 
定义 9.3 (五 函数 ) ”假设 隐 变 量 数据 Z 的 概率 分 布 为 ECZ) ， 定 义 分 布 巨 与 
参数 9 的 函数 F(P,9) 如 下 : 


F(B,0)= EsllogP(Y,Z10)]+ H(E) (9.33) 
称 为 F 函数 . 式 中 太 ( 甩 =-E; log PB(Z) 是 分 布 B(Z) 的 炳 . 


在 定义 9.3 中 , 通常 假设 P(Y,Z19) 是 8 的 连续 函数 , 因而 F(B,9) 是 和 0 的 
连续 函数 ， 函 数 (P,9) 还 有 以 下 重要 性 质 : 

引 理 9.1 对 于 固定 的 8， 存在 唯一 的 分 布 轧 极 大 化 F(B0), 这 时 记 由 下 式 
给 出 : 





B(Z)=P(Z|Y,0) (9.34) 


并 且 忆 随 9 连续 变化 . 
证 明 ”对 于 固定 的 9， 可 以 求 得 使 F(B,9) 达到 极 大 的 分 布 名 (Z) . 为 此 ， 引 
进 拉 格 朗 日 乘 子 4， 拉 格 朗 日 函数 为 


L=EslogP(Y,Z|0)- ElogB(Z)+ a - ba) (9.35) 
2 
将 其 对 记 求 偏 导数 : 





3 =10gP(Y,Z|0)—logP(Z)-—1—4 
令 偏 导 数 等 于 0， 得 出 

A4=logP(Y,Z|0) -logB(2Z)-1 
由 此 推出 户 (Z) 与 P(Y,Z19) 成 比例 


PY,Z10) _ 
52) 


再 从 约束 条 件 了 户 (Z)=1 得 式 (9.34) . 
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由 假设 P(Y,Z19) 是 8 的 连续 函数 ， 得 到 互 是 9 的 连续 函数 . 站 
引 理 9.2 若 忆 (Z)=P(Z17Y,9)， 则 
F(BP,0)=logP(Y|0) (9.36) 


证 明 作为 习题 ， 留 给 读者 . 

由 以 上 引 理 ， 可 以 得 到 关于 EM 算法 用 下 函数 的 极 大 - 极 大 算法 的 解释 . 

定理 9.3 设 L(9)=logP(Y|9) 为 观测 数据 的 对 数 似 然 函 数 ，9" ，i=1,2,…， 
为 EM 算法 得 到 的 参数 估计 序列 , 函数 F(E,6) 由 式 (9.33) 定义 . 如 果 FF(B,0) 在 户 
和 8 有 局 部 极 大 值 ,那么 Z(8) 也 在 8 有 局 部 极 大 值 . 类 似 地 , 如 果 下 (PB,0) 在 户 
和 6" 达到 全 局 最 大 值 ， 那 么 L(9) 也 在 8" 达到 全 局 最 大 值 . 

证 明 由 引 理 9.1 和 引 理 9.2 可 知 ，L(9)=logP(Y|9)=F(B,0) 对 任意 8 成 
立 , 特别 地 ， 对 于 使 F(B,0) 达到 极 大 的 参数 06" ， 有 


L(0°)=F(B.,0°)=F(P",0") (9.37) 


为 了 证 明 8' 是 L(8) 的 极 大 点 ,需要 证 明 不 存在 接近 8" 的 点 0” ,使 Z(6") > Z(87)， 
假如 存在 这 样 的 点 8”, 那么 应 有 下 (PB",0") > F(P,0'), 这 里 B" = 忆 .. 但 因 户 
是 随 9 连续 变化 的 ，P” 应 接近 六 ， 这 与 志和 人 是 天 (5,6) 的 局 部 极 大 点 的 假设 
矛盾 ， 

类 似 可 以 证 明 关于 全 局 最 大 值 的 结论 . 和 

定理 9.4 ”EM 算法 的 一 次 迭代 可 由 下 函数 的 极 大 - 极 大 算法 实现 . 

设 60 为 第 ;次 和 欠 代 参数 9 的 估计 ，Po 为 第 ;次 和 欠 代 函数 疡 的 估计 , 在 第 i+1 
次 迭代 的 两 步 为 

(1) 对 固定 的 g2 ， 求 B*? 使 F(E,60) 极 大 化 ; 

(2) 对 固定 的 2， 求 01*9 使 FCBoro ,9) 极 大 化 . 

证 明 〈1) 由 引 理 9.1， 对 于 固定 的 0 ， 


Pz) =B, (2)=P(Z|Y,0°) 














使 F(B,9) 极 大 化 .此 时 ， 
F(P'Y,0)= Es [log P(Y,Z10)]+ H(B®™®) 
= ZogP0,z IO)P(Z|Y,0°) + HP") 
由 Q(6,6") 的 定义 式 (9.11) 有 
F(P'*Y,0)=Q(0,0°)+H(E) 
(2) 固定 疡 入 ， 求 go 使 PCEer,6) 极 大 化 . 得 到 
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6 =argmax F (PY,0)=argmax QO(6,0") 


通过 以 上 两 步 完成 了 EM 算法 的 一 次 迭代 . 由 此 可 知 ， 由 EM 算法 与 函数 的 极 
大 - 极 大 算法 得 到 的 参数 估计 序列 g9 ，i=1,2,…， 是 一 致 的 . 四 
这 样 ， 就 有 EM 算法 的 推广 . 


9.4.2 GEM 算法 


算法 9.3 (GEM 算法 1) 

输入 : 观测 数据 ，FF 函数， 

输出 ， 模 型 参数 . 

(1) 初始 化 参数 6%” ， 开 始 迭 代 

(2) 第 i+1 次 选 代 , 第 1 步 : 记 60 为 参数 9 的 估计 值 ， BP 为 函数 忆 的 估计 . 求 
Pl) 使 户 极 大 化 F(B,0") 

(3) 第 2 步 : 求 0 使 F(B"0,0) 极 大 化 

(4) 重复 (2) 和 (3)， 直 到 收敛 . m 

在 GEM 算法 1 中, 有 时 求 2(2,9%) 的 极 大 化 是 很 困难 的 . 下 面 介绍 的 GEM 
算法 2 和 GEM 算法 3 并 不 是 直接 求 go 使 0(8,69) 达到 极 大 的 9 ， 而 是 找 一 个 
OD 使 得 QO ,gn) @(90,90) ， 

算法 9.4 (GEM 算法 2) 

输入 : 观测 数据 ，@ 函数 ， 

输出 : 模型 参数 ， 

(1) 初始 化 参数 8% ， 开 始 和 迭代 

(2) 第 i+1 次 迭代， 第 1 步 : 记 60 为 参数 8 的 估计 值 ， 计 算 


Q(0,0°)=E,[logP(Y,2Z10)|Y,0°] 
=D,P(Z|Y,0°)1logP(Y,Z10) 


(3) 第 2 步 : 求 go 使 
Q(O%Y,0%) > Q(0®, 9) 


(4) 重复 (2) 和 (3) ， 直 到 收敛 . 四 

当 参 数 9 的 维 数 为 4 〈d>2 ) 时 ， 可 采用 一 种 特殊 的 GEM 算法 ， 它 将 EM 
算法 的 M 步 分 解 为 4 次 条 件 极 大 化 ， 每 次 只 改变 参数 向 量 的 一 个 分 量 ， 其 余 分 
量 不 改变 . 

算法 9.5 (GEM 算法 3) 

输入 : 观测 数据 ，Q 函数 ; 
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输出 : 模型 参数 . 
(1) 初始 化 参数 g0 = (869,89,…,8")， 开 始 迭 代 
《2) 第 i+1 次 和 迭代, 第 1 步 : 记 60 =(6”,60,…,6) 为 参数 9=(8,0,,…,0,) 
的 估计 值 ， 计 算 
Q(6,0°)=E,[logP(Y,210)|Y,0°] 
=D,P(Z|y,0°)logP(Y,210) 
也 


(3) 第 2 步 : 进行 4 次 条 件 极 大 化 : 
首先 ， 在 2?,…,6@4 保持 不 变 的 条 件 下 求 使 O(6,6”) 达 到 极 大 的 Bee ; 
然后 ,在 8 = 了?，9, =89，j=3,4,…,k 的 条 件 下 求 使 O(9,9) 达 到 极 大 
的 CD ; 
如 此 继续 ， 经 过 4 次 条 件 极 大 化 ， 得 到 9" = (Bi0,60e0 ,Br0) 使 得 
Q(0"Y,00) > Q(0°,0°) 


(4) 重复 (2) 和 (3) ， 直 到 收敛 . a 


本 章 概 要 


1. EM 算法 是 含有 隐 变 量 的 概率 模型 极 大 似 然 估计 或 极 大 后 验 概率 估计 的 迭 
代 算 法 . 含有 隐 变 量 的 概率 模型 的 数据 表示 为 P(Y,Z19) . 这 里 ， 7 是 观测 变量 的 
数据 ，Z 是 隐 变 量 的 数据 ， 是 模型 参数 ，EM 算法 通过 和 迭代 求解 观测 数据 的 对 
数 似 然 函 数 L(9) =log P(Y19) 的 极 大 化 , 实现 极 大 似 然 估计 . 每 次 迭代 包括 两 步 ; 
卫 步 ， 求 期 望 ， 即 求 log P(Y,Z10) 关 于 P(Z|Y,6") 的 期 望 : 
Q(0,0°)= DlogP(Y,Z10)P(Z1Y,0°) 
称 为 8 函数 ， 这 里 60 是 参数 的 现 估计 值 ，M 步 ， 求 极 大 ， 即 极 大 化 Q 函数 得 
到 参数 的 新 估计 值 : 
2 =argmax Q(6,0") 
在 构建 具体 的 EM 算法 时 ， 重 要 的 是 定义 @ 函数 .每 次 迭代 中 ，EM 算法 通 


过 极 大 化 函数 来 增 大 对 数 似 然 函 数 L(9). 
2，EM 算法 在 每 次 迭代 后 均 提高 观测 数据 的 似 然 函 数值 ， 即 


P(Y10")> P(Y|O®) 
在 一 般 条 件 下 EM 算法 是 收敛 的 ， 但 不 能 保证 收敛 到 全 局 最 优 . 
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3. EM 算法 应 用 极其 广泛 ， 主 要 应 用 于 含有 隐 变 量 的 概率 模型 的 学 习 . 高 斯 
混合 模型 的 参数 估计 是 EM 算法 的 一 个 重要 应 用 ， 下 一 章 将 要 介绍 的 隐 马 尔 可 夫 
模型 的 非 监督 学 习 也 是 EM 算法 的 一 个 重要 应 用 . 

4. EM 算法 还 可 以 解释 为 F 函数 的 极 大 - 极 大 算法 . EM 算法 有 许多 变形 ， 
如 GEM 算法 . GEM 算法 的 特点 是 每 次 迭代 增加 书 函数 值 (并 不 一 定 是 极 大 化 玉 
函数 )， 从 而 增加 似 然 函数 值 . 


继续 阅读 


EM 算法 由 Dempster 等 人 总 结 提出 帆 。 类似 的 算法 之 前 已 被 提出 ， 如 Baum 
与 Welch 算法 , 但 是 都 没有 EM 算法 那么 广泛 . EM 算法 的 介绍 可 参见 文献 [2 一 4]. 
EM 算法 收敛 性 定理 的 有 关 证 明 见 文献 [5]，GEM 是 由 Neal 与 Hinton 提出 的 加. 


习 题 


如 例 9.1 的 三 硬币 模型 . 假设 观测 数据 不 变 , 试 选择 不 同 的 初 值 , 例如 , x 中 = 
0.46，p® = 0.55，4@ =0.67， 求 模型 参数 9= (x,p,q) 的 极 大 似 然 估计 . 
9.2 证明 引 理 9.2. 

9.3 已 知 观测 数据 

-67, -48, 6, 8, 14, 16, 23, 24, 28, 29, 41, 49, 56, 60, 75 


试 估计 两 个 分 量 的 高 斯 混合 模型 的 5 个 参数 . 
9.4 ”EM 算法 可 以 用 到 朴素 贝 叶 斯 法 的 非 监督 学 习 ， 试 写 出 其 算法 . 
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第 10 章 隐 马 尔 可 夫 模型 


隐 马 尔 可 夫 模型 (hidden Markov model, HMM) 是 可 用 于 标注 问题 的 统计 学 
习 模 型 ， 描 述 由 隐藏 的 马尔 可 夫 链 随机 生成 观测 序列 的 过 程 ， 属 于 生成 模型 .本 
章 首 先 介绍 隐 马 尔 可 夫 模 型 的 基本 概念 ， 然 后 分 别 叙 述 隐 马尔 可 夫 模 型 的 概率 计 
算 算法 、 学 习 算 法 以 及 预测 算法 . 隐 马 尔 可 夫 模 型 在 语音 识别 、 自 然 语言 处 理 、 
生物 信息 、 模 式 识别 等 领域 有 着 广泛 的 应 用 . 


10.1 隐 马 尔 可 夫 模 型 的 基本 概念 
10.1.1 隐 马 尔 可 夫 模 型 的 定义 


定义 10.1〈 隐 马尔 可 夫 模 型 ) 隐 马 尔 可 夫 模 型 是 关于 时 序 的 概率 模型 ， 描 
述 由 一 个 隐藏 的 马尔 可 夫 链 随机 生成 不 可 观测 的 状态 随机 序列 ， 再 由 各 个 状态 生 
成 一 个 观测 而 产生 观测 随机 序列 的 过 程 . 隐藏 的 马尔 可 夫 链 随机 生成 的 状态 的 序 
列 , 称 为 状态 序列 state sequence); 每 个 状态 生成 一 个 观测 ， 而 由 此 产生 的 观测 
的 随机 序列 ， 称 为 观测 序列 《observation sequence). 序列 的 每 一 个 位 置 又 可 以 看 
作 是 一 个 时 刻 . 

隐 马 尔 可 夫 模 型 由 初始 概率 分 布 、 状 态 转移 概率 分 布 以 及 观测 概率 分 布 确 
定 ， 隐 马尔 可 夫 模 型 的 形式 定义 如 下 : 

设 Q 是 所 有 可 能 的 状态 的 集合 ，V 是 所 有 可 能 的 观测 的 集合 . 


Q={4,92 "Gy}: V= fr Vy} 


其 中 ，N 是 可 能 的 状态 数 ，M 是 可 能 的 观测 数 . 
I 是 长 度 为 7 的 状态 序列 ，O 是 对 应 的 观测 序列 . 





T=(isi,"",i), O=(0,,0,,…,07) 
4 是 状态 转移 概率 矩阵 : 
4 [a lo on 


其 中 ， 
@y = Pin=g i=9), 27Ni j=1,2,°,N (10.2) 


是 在 时 刻 ! 处 于 状态 g, 的 条 件 下 在 时 刻 1+1 转 移 到 状态 g, 的 概率 . 
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8 是 观测 概率 矩阵 : 
B=[2D] (10.3) 
其 中 ， 
b(K)=P(o,=v i=g), 天 =1 2 7=12…N (10.4) 
是 在 时 刻 : 处 于 状态 9 的 条 件 下 生成 观测 w 的 概率 . 
元 是 初始 状态 概率 向 量 : 
和 =( 厂 ) (10.5) 
其 中 ， 
m=Pi=9), i=L,2,,N (10.6) 


是 时 刻 1=1 处 于 状态 9 的 概率 . 


隐 马 尔 可 夫 模 型 由 初始 状态 概率 向 量 x、 状 态 转移 概率 矩阵 4 和 观测 概率 矩 

阵 刀 决定，x 和 4 决定 状态 序列 ，B 决定 观测 序列 . 因此 ， 隐 马尔 可 夫 模 型 4 可 
以 用 三 元 符号 表示 ， 即 

A=(4,B,7) (10.7) 


4,B,z 称 为 隐 马 尔 可 夫 模型 的 三 要 素 . 

状态 转移 概率 矩阵 4 与 初始 状态 概率 向 量 z 确定 了 隐藏 的 马尔 可 夫 链 , 生成 
不 可 观测 的 状态 序列 . 观测 概率 矩阵 8 确定 了 如 何 从 状态 生成 观测 ， 与 状态 序列 
综合 确定 了 如 何 产 生 观 测序 列 . 

从 定义 可 知 ， 隐 马尔 可 夫 模 型 作 了 两 个 基本 假设 : 

(1) 齐 次 马尔 可 夫 性 假设 ， 即 假设 隐藏 的 马尔 可 夫 链 在 任意 时 刻 1 的 状态 只 
依赖 于 其 前 一 时 刻 的 状态 ， 与 其 他 时 刻 的 状态 及 观测 无 关 ， 也 与 时 刻 ! 无 关 ， 


Pli iso ho)= PG i), 1=1,2,,7 (10.8) 


(2) 观测 独立 性 假设 ， 即 假设 任意 时 刻 的 观测 只 依赖 于 该 时 刻 的 马尔 可 夫 链 
的 状态 ， 与 其 他 观测 及 状态 无 关 . 





Co |ir, Orsirs Or sin Omi hy, O19", 0 ) = PO, |i) (10.9) 


隐 马 尔 可 夫 模 型 可 以 用 于 标注 ， 这 时 状态 对 应 着 标记 . 标注 问题 是 给 定 观测 
的 序列 预测 其 对 应 的 标记 序列 . 可 以 假设 标注 问题 的 数据 是 由 隐 马 尔 可 夫 模 型 生 
成 的 ， 这 样 我 们 可 以 利用 隐 马 尔 可 夫 模型 的 学 习 与 预测 算法 进行 标注 。 

下 面 看 一 个 隐 马 尔 可 夫 模 型 的 例子 . 





10.1 隐 马 尔 可 夫 模型 的 基本 概念 173 





例 10.1《 盒 子 和 球 模型 〉 假设 有 4 个 盒子 ， 每 个 盒子 里 都 装 有 红 白 两 种 颜 
色 的 球 ， 盒 子 里 的 红 白 球 数 由 表 10.1 列 出 : 


表 10.1 各 盒子 的 红 白 球 数 








盒 子 I 总 
红 球 数 5 3 6 8 
白 球 数 5 7 


按照 下 面 的 方法 抽 球 ， 产 生 一 个 球 的 颜色 的 观测 序列 : 开始 ， 从 4 个 盒子 里 
以 等 概率 随机 选取 1 个 盒子 ， 从 这 个 盒子 里 随机 抽出 1 个 球 ， 记 录 其 颜色 后 ， 放 
可 然后 ， 从 当前 盒子 随机 转移 到 下 一 个 盒子 ， 规 则 是 : 如 果 当 前 盒子 是 盒子 1， 
那么 下 一 盒子 一 定 是 盒子 2， 如 果 当前 是 盒子 2 或 3， 那么 分 别 以 概率 0.4 和 0.6 
转移 到 左边 或 右边 的 盒子 , 如果 当前 是 盒子 4, 那么 各 以 0.5 的 概率 停留 在 盒子 4 
或 转移 到 盒子 3， 确 定 转移 的 盒子 后 ， 再 从 这 个 盒子 里 随机 抽出 1 个 球 ， 记 录 其 
颜色 ， 放 回 ， 如 此 下 去 ， 重 复 进行 5 次 ， 得 到 一 个 球 的 颜色 的 观测 序列 ， 


O= { 红 , 红 , 白 , 白 , 红 } 


在 这 个 过 程 中 ， 观 察 者 只 能 观测 到 球 的 颜色 的 序列 ， 观 测 不 到 球 是 从 哪个 盒子 取 
出 的 ， 即 观测 不 到 盒子 的 序列 . 

在 这 个 例子 中 有 两 个 随机 序列 ， 一 个 是 盒子 的 序列 〈 状 态 序列 )， 一 个 是 球 
的 颜色 的 观测 序列 〈 观 测序 列 )， 前 者 是 隐藏 的 ， 只 有 后 者 是 可 观测 的 ， 这 是 一 
个 隐 马 尔 可 夫 模 型 的 例子 ， 根 据 所 给 条 件 ， 可 以 明确 状态 集合 、 观 测 集合 、 序 列 
长 度 以 及 模型 的 三 要 素 . 

盒子 对 应 状态 ， 状 态 的 集合 是 

2 = 合子 盒子 2, 盒子 3, 盒子 4} ， N=4 
球 的 颜色 对 应 观测 . 观测 的 集合 是 
V= 红 ,和 包 ，M=2 


状态 序列 和 观测 序列 长 度 T =5 . 
初始 概率 分 布 为 














X=(0.25, 0.25, 0.25, 0.25)™ 
状态 转移 概率 分 布 为 
ee 
|04 0 06 0 
10 04 0 0.6 
0 0 05 0.5 
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观测 概率 分 布 为 
0.5 0.5 
_|03 07 
“10.6 0.4 
0.8 0.2 


10.1.2 ”观测 序列 的 生成 过 程 


根据 隐 马 尔 可 夫 模型 定义 , 可 以 将 一 个 长 度 为 了 的 观测 序列 O= (0,,0,,…,o;) 
的 生成 过 程 描述 如 下 : 

算法 10.1 (观测 序列 的 生成 ) 

输入 ， 隐 马尔 可 夫 模型 4 = (4,B,z) ， 观 测序 列 长 度 7; 

输出 : 观测 序列 O= (0,0,,…,07). 

(1) 按照 初始 状态 分 布 开 产生 状态 ii 

(2) 令 1=1 

(3) 按照 状态 i 的 观测 概率 分 布 b (k) 生成 

(4) 按照 状态 i 的 状态 转移 概率 分 布 {9s} 产生 状态 i = 2 N 

(5) 令 1=t+1; 如 果 1<T， 转 步 (3);， 否则 ， 终 止 中 


10.1.3 ” 隐 马 尔 可 夫 模 型 的 3 个 基本 问题 


隐 马 尔 可 夫 模 型 有 3 个 基本 问题 : 

(1) 概率 计算 问题 . 给 定 模型 4 = (4,B,z) 和 观测 序列 O= (ojo…,or)， 计 
算 在 模型 4 下 观测 序列 O 出 现 的 概率 P(O1 人 ) . 

(2) 学 习 问题 . 已 知 观测 序列 O = (o,o…,or)， 估 计 模型 4= (4,B,z) 参数 ， 
使 得 在 该 模型 下 观测 序列 概率 P(O| 4) 最 大 . 即 用 极 大 似 然 估计 的 方法 估计 参数 . 

(3) 预测 问题 ， 也 称 为 解码 〈decoding) 问题 .已 知 模型 4=(4,8,x) 和 观测 
序列 0=(0,0,,…,0r)， 求 对 给 定 观测 序列 条 件 概 率 P(7|O) 最 大 的 状态 序列 
7 了 =(i, 右 ,…, 妆 )， 即 给 定 观 测序 列 ， 求 最 有 可 能 的 对 应 的 状态 序列 . 

下 面 各 节 将 逐一 介绍 这 些 基 本 问题 的 解法 . 


10.2 ”概率 计算 算法 


本 节 介 绍 计算 观测 序列 概率 P(O|14) 的 前 向 〈forward) 与 后 向 〈backward) 
算法 . 先 介 绍 概念 上 可 行 但 计算 上 不 可 行 的 直接 计算 法 . 
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10.2.1 直接 计算 法 


给 定 模型 4 = (4,B,z) 和 观测 序列 O=(o,,0,,…,or)， 计 算 观 测序 列 O 出 现 的 
概率 P(O14) .最 直接 的 方法 是 按 概 率 公式 直接 计算 .通过 列举 所 有 可 能 的 长 度 
为 了 的 状态 序列 1=(%,,…, 计 )， 求 各 个 状态 序列 了 与 观测 序列 O = (0,0,,…,or) 
的 联合 概率 P(O,T| 力 ， 然 后 对 所 有 可 能 的 状态 序列 求 和 ， 得 到 P(O1 人 ， 

状态 序列 =(i,,…, 鹿 ) 的 概率 是 


P(TIND=7, 


Oh Oh Chri (10.10) 


对 固定 的 状态 序列 7 了 =(ii,…, 妆 ) ， 观 测序 列 O=(o,o…or) 的 概率 是 
P(O11,N), 


P(O|1,N) = (01)b, (0,)…b, (or) (10.11) 
OQ 和 了 7 同时 出 现 的 联合 概率 为 
P(O,T|N)=P(O|1,NWP(UID 
=7,b, (01)a,b, (0,) "a sb, (07) (10.12) 


然后 ， 对 所 有 可 能 的 状态 序列 7 求 和 ， 得 到 观测 序列 O 的 概率 P(O1 1) ， 即 
P(O|D= BP(OIL WPID 


= 3 tb,(0)a,b, C0)%a,,b, (0r) (10.13) 
和 


但 是 ， 利 用 公式 (10.13) 计算 量 很 大 ， 是 O(TN7) 阶 的 ， 这 种 算法 不 可 行 . 
下 面 介绍 计算 观测 序列 概率 P(O| 力 的 有 效 算法 .前 向 -后 向 算法 forward- 
backward algorithm). 


10.2.2 ”前 向 算法 


首先 定义 前 向 概率 . 
定义 10.2 前 向 概率 ) ”给 定 隐 马 尔 可 夫 模型 4， 定义 到 时 刻 + 部 分 观测 序列 
为 0,0,,…,0, 且 状态 为 q, 的 概率 为 前 向 概率 ， 记 作 


@(i)=P(0,0,,…,0,,i =g,|N) (10.14) 
可 以 递 推 地 求 得 前 向 概率 w () 及 观测 序列 概率 P(O | 用) . 
算法 10.2〔 观 测序 列 概率 的 前 向 算法 ) 


输入 : 隐 马 尔 可 夫 模 型 4， 观测 序列 O， 
输出 ;观测 序列 概率 P(O1 人 ) . 
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(1) 初 值 

oa)=Nb(0), i=L2,,N (10.15) 
(2) 递 推 对 1=1,2,…,T 一 1， 
“20Sa cDe, alow i=1,2,…,N (10.16) 
j=l 

(3) 终止 

P(OID=Yo0) (10.17) a 
和 1 


前 向 算法 ， 步 又 (1) 初始 化 前 向 概率 ， 是 初始 时 刻 的 状态 = 9 和 观测 o 的 
联合 概率 ,步骤 (2) 是 前 向 概率 的 递 推 公式 ， 计 算 到 时 刻 t+1 部 分 观测 序列 为 
ouo…osoul 且 在 时 刻 !+1 处 于 状态 4 的 前 向 概率 , 如 图 10.1 所 示 . 在 式 (10.16) 
的 方 括 弧 里 ， 既 然 @()) 是 到 时 刻 t 观 测 到 0,0,…,o, 并 在 时 刻 ! 处 于 状态 9) 的 前 
向 概率 ， 那 么 乘积 @(j)aj, 就 是 到 时 刻 1 观 测 到 0,,0,,…,o, 并 在 时 刻 1 处 于 状态 g， 
而 在 时 刻 ++1 到 达 状 态 9 的 联合 概率 ， 对 这 个 乘积 在 时 刻 ! 的 所 有 可 能 的 W 个 状 
态 9, 求 和 ， 其 结果 就 是 到 时 刻 1 观 测 为 0,,0,,…,o, 并 在 时 刻 :+1 处 于 状态 9 的 联 
合 概 率 . 方 括 弧 里 的 值 与 观测 概率 4b(o,,,) 的 乘积 恰好 是 到 时 刻 1+1 观 测 到 
01,02,…,01,0i 并 在 时 刻 #+1 处 于 状态 9 的 前 向 概率 w,,(D) . 步骤 (3) 给 出 P(O1 人 
的 计算 公式 .因为 

(0)=P(01,0,,%,0rsy =9|N) 
所 以 


N 
P(O|D=> or 人 
=1 





三 1 
a0) al) 


图 10.1 前 向 概率 的 递 推 公式 


如 图 10.2 所 示 , 前 向 算法 实际 是 基于 “状态 序列 的 路 径 结构 ? 递 推 计算 P(O| 人 ) 
的 算法 . 前 向 算法 高 效 的 关键 是 其 局 部 计算 前 向 概率 ， 然 后 利用 路 径 结构 将 前 向 
概率 “ 递 推 ”到 全 局 ， 得 到 P(O| 力 .具体 地 ， 在 时 刻 :=1， 计 算 a(i) 的 个 值 
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(i=12…,N);， 在 各 个 时 刻 上 =12…,T-1， 计算 wsGD) 的 六 个 值 (1=132…,N)， 
而 且 每 个 w,(D 的 计算 利用 前 一 时 刻 NX 个 w(7) .减少 计算 量 的 原因 在 于 每 一 次 
计算 直接 引用 前 一 个 时 刻 的 计算 结果 ， 避 免 重复 计算 ， 这样， 利用 前 向 概率 计算 
P(O14) 的 计算 量 是 CO(N27) 阶 的 ， 而 不 是 直接 计算 的 OCTN7) 阶 . 








图 10.2 观测 序列 路 径 结构 


例 10.2 ”考虑 盒子 和 球 模型 4 = (4,B,z) ,状态 集合 OQ= {1,2,3} ,观测 集合 广 = 
0.5 02 03 


休 ， 壬 ， 
0.5 0.5 
0.3 0.5 0.2|, B=|0.4 0.6|, x=(0.2,0.4,0.4)" 


A= 
0.2 0.3 0.5 0.7 03 
设 T=3，0O=( 红 , 白 , 红 ) ， 试 用 前 向 算法 计算 P(O1 人 ) . 
解 按照 算法 10.2 

(1) 计算 初 值 











oD)=nh(0)=0.10 
9(2)=Rb,(0)=0.16 
0(3)=nh(0,)=0.28 
(2) 递 推 计算 
o(D= [ah edison 


0(2)= [Seo b(0;)=0.184x0.6=0.1104 


(3)= [Soe ates) =0.202x0.3=0.0606 





&D= aos lo- 0.04187 


%(2)= (See ba(03) =0.03551 
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wwG)=- be CA (03) =0.05284 
EE 
(3) 终止 
P(OID= D000) =0.13022 a 
i=] 


10.2.3 后 向 算法 


定义 10.3《〈 后 向 概率 ) ”给 定 隐 马 尔 可 夫 模型 4， 定 义 在 时 刻 ! 状 态 为 9 的 
条 件 下 ， 从 t+1 到 了 的 部 分 观测 序列 为 0,,1,0,,,,…,or 的 概率 为 后 向 概率 ， 记 作 
B(i)=P(0,n,0,2,07 | =4,D (10.18) 
可 以 用 递 推 的 方法 求 得 后 向 概率 B.(i) 及 观测 序列 概率 P(O14) . 
算法 10.3 (观测 序列 概率 的 后 向 算法 ) 
输入 : 隐 马 尔 可 夫 模 型 14， 观测 序列 O ; 
输出 : 观测 序列 概率 P(O| 人 办 . 


(1) 
B=1, i=1,2,…,N (10.19) 
(2) 对 t=T-1,T-2,…,1 
N 
BO=Y bo Bu) i=1,2,N (10.20) 
j=l 
(3) 
P(OID=Y nh(o)B 0 (1021) a 
和 el 


步骤 (1) 初始 化 后 向 概率 , 对 最 终 时 刻 的 所 有 状态 g, 规 定 B.(i) =1. 步骤 (2) 
是 后 向 概率 的 递 推 公式 . 如 图 10.3 所 示 ， 为 了 计算 在 时 刻 + 状 态 为 g, 条 件 下 时 刻 
t+1 之 后 的 观测 序列 为 0,,.,0,,,…,or 的 后 向 概率 及 (D) ， 只 需 考虑 在 时 刻 !+1 所 有 





gw 
I t+1 


BO B10) 
图 10.3 后 向 概率 递 推 公式 
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可 能 的 六 个 状态 9 的 转移 概率 〈 即 mw 项 )， 以 及 在 此 状态 下 的 观测 o,, 的 观测 概 

率 ( 即 b,(0iw) 项 ), 然后 考虑 状态 9) 之 后 的 观测 序列 的 后 向 概率 ( 即 刀 ,()) 项 ). 步 

骤 (3) 求 P(O1M4) 的 思路 与 步骤 (2) 一 致 ， 只 是 初始 概率 元 代替 转移 概率 . 
利用 前 向 概率 和 后 向 概率 的 定义 可 以 将 观测 序列 概率 P(O1 统一 写成 


P(OID=Y Yaad BC， t=1,2,…,7-1 (10.22) 
i=l j=] 
此 式 当 1=1 和 +:=7 了 -1 时 分 别 为 式 (10.17) 和 式 (10.21). 
10.2.4 “一些 概率 与 期 望 值 的 计算 


利用 前 向 概率 和 后 向 概率 , 可 以 得 到 关于 单个 状态 和 两 个 状态 概率 的 计算 公式 . 
1. 给 定 模型 4 和 观测 O， 在 时 刻 1 处 于 状态 g, 的 概率 ， 记 
HD)=P( =g|0,N) (10.23) 
可 以 通过 前 向 后 向 概率 计算 . 事实 上 ， 


Ce _P(i=g,01N) 

HD)=P(i =g|0,N) old 

由 前 向 概率 &(i) 和 后 向 概率 记 (i) 定义 可 知 : 
oDBO)=P,=9,0|N) 


于 是 得 到 : 
a060 auoOhO 
SI (10.24) 
?0 Soap) 

短 


2 给 定 模型 4 和 观测 O ， 在 时 刻 : 处 于 状态 gq 且 在 时 刻 t+1 处 于 状态 9 的 概 
率 . 记 


XD)= 


Gi))=P( = gin =9,|0,N) (10.25) 


可 以 通过 前 向 后 向 概率 计算 : 
PG =gvin =90|D PO =gin =9), 
&G 站 = Gi, 2 和 | 力 _ gui =9,0| 作 
Wo >,PG=4,in =9,01D) 


l/l 





Pli= qin =,01D= 0 (ayb)(0)B (7) 
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所 以 
RALAACR A 2 


Zo Db on)Ba 0) 


3. 将 %G) 和 (i,j) 对 各 个 时 刻 1 求 和 ， 可 以 得 到 一 些 有 用 的 期 望 值 : 
(1) 在 观测 O 下 状态 i 出 现 的 期 望 值 


bao (10.27) 
(2) 在 观测 O 下 由 状态 ;转移 的 期 望 值 
x0 (10.28) 
(3) 在 观测 O 下 由 状态 ;转移 到 状态 /的 期 望 值 
ba (10.29) 
10.3 学 习 算 法 


隐 马 尔 可 夫 模型 的 学 习 ,根据 训练 数据 是 包括 观测 序列 和 对 应 的 状态 序列 还 
是 只 有 观测 序列 ， 可 以 分 别 由 监督 学 习 与 非 监督 学 习 实 现 . 本 节 首 先 介绍 监督 学 
习 算法 ， 而 后 介绍 非 监督 学 习 算法 一 Baum-Welch 算法 (也 就 是 EM 算法 )， 


10.3.1 监督 学 习 方 法 


假设 已 给 训练 数据 包含 5 个 长 度 相同 的 观测 序列 和 对 应 的 状态 序列 
{(Q,TD,(O,)…,(O 太 )， 那 么 可 以 利用 极 大 似 然 估计 法 来 估计 隐 马 尔 可 夫 模 
型 的 参数 ， 具 体 方法 如 下 . 

1。 转移 概率 a, 的 估计 

设 样本 中 时 刻 1 处 于 状态 1 时刻 1+1 转 移 到 状态 j 的 频数 为 4 ， 那 么 状态 转 
移 概率 a, 的 估计 是 


号 半生 i=L2, Ns; 7=12…N (10.30) 
24 
j=1 

2. 观测 概率 5,(k) 的 估计 

设 样本 中 状态 为 了 并 观测 为 下 的 频数 是 Bu ， 那 么 状态 为 j 观测 为 的 概率 
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b,(k) 的 估计 是 
已 ( 昌 = 有 ， 7=12…,Ni k=1,2,,M (10.31) 
ZB 


3. 初始 状态 概率 石 的 估计 记 为 8 个 样本 中 初始 状态 为 4 的 频率 
由 于 监督 学 习 需 要 使 用 训练 数据 ， 而 人 工 标注 训练 数据 往往 代价 很 高 ， 有 了 时 
就 会 利用 非 监 督学 习 的 方法 . 


























10.3.2 Baum-Welch 算法 
假设 给 定 训练 数据 只 包含 8 个 长 度 为 了 的 观测 序列 {0O,,O,,…,O,} 而 没有 对 
应 的 状态 序列 ， 目 标 是 学 习 隐 马尔 可 夫 模 型 4= (4,B,z) 的 参数 ， 我 们 将 观测 序 
列 数 据 看 作 观 测 数 据 O， 状 态 序列 数据 看 作 不 可 观测 的 隐 数 据 上 ， 那 么 隐 马 尔 可 
夫 模 型 事实 上 是 一 个 含有 隐 变 量 的 概率 模型 
P(OID= POIL, WPID) (10.32) 
它 的 参数 学 习 可 以 由 EM 算法 实现 . 
1. 确定 完全 数据 的 对 数 似 然 函 数 
所 有 观测 数据 写成 O= (o,ox,…,or) ， 所 有 隐 数 据 写 成 了 = 全 必 ,办 ) ， 完 全 
数据 是 (0, 了 )=(0,,0,,…,07,i, 训 …, 订 ) .完全 数据 的 对 数 似 然 函 数 是 log P(O,7|4) . 
2. EM 算法 的 E 步 : 求 @ 函数 Q(X 大? 
Q(1,N)= logP(O,T| NP(O,IINA) (10.33) 
其 中 ， 志 是 隐 马 尔 可 夫 模型 参数 的 当前 估计 值 ，4 是 要 极 大 化 的 隐 马 尔 可 夫 模型 
参数 . 


P(O,T|N) = b, (0)a, bs (0) a sb; (07) 
于 是 函数 Q(X,) 可 以 写成 : 
CC 和 = 2,logn, P(O,TID) 
1 
+ (Se Cm por [+ (Ps b, jo | 思 (0.34) 
了 了 =1 了 t=1 
式 中 求 和 都 是 对 所 有 训练 数据 的 序列 总 长 度 了 进行 的 . 





外 按照 函数 的 定义 
Q(%,D=Ellog P(O,1ID)10,D 
式 (10.33) 略 去 了 对 4 而 言 的 常数 因子 1/P(OI 思 . 
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3，EM 算法 的 M 步 : 极 大 化 8 函数 Q(4,4) 求 模型 参数 4 B, 秋 
由 于 要 极 大 化 的 参数 在 式 (10.34) 中 单独 地 出 现在 3 个 项 中 ， 所 以 只 需 对 各 





项 分 别 极 大 化 . 


(1) 式 (10.34) 的 第 1 项 可 以 写成 : 


Dlogz, 
了 


P(O,1|D= Vlognp(O% =i|4) 
i=] 


注意 到 万 满足 约束 条 件 六 二 =1， 利用 拉 格 朗 日 乘 子 法 ， 写 出 拉 格 朗 日 函数 ; 


N N 
PlognP(Oi=ilA)+Y| Yn -1 
i=1 


{al 


对 其 求 偏 导数 并 令 结果 为 0 
a bE =1D+7(Sn -1)|-=0 (10.35) 
9 用 | 气 过 
得 
P(O,i =i|lA)+ p=0 
对 i 求 和 得 到 yy _ 
7=-P(O|N) 
代入 式 (10.35) 即 得 
PO,i =ilA) 
石 = PEO 有 (10.36) 


(2) 式 (10.34) 的 第 2 项 可 以 写成 
bl NNIA 加 
(Se ou eo [DD=> og oP(O =bin = 了 用 


类 似 第 1 项 ， 应 用 具有 


a /a 


约束 条 件 立 ai =1 的 拉 格 朗 日 乘 子 法 可 以 求 出 
问 


Tl es: 
Z PO =iin =j)D 


= (10.37) 


EA 
2,P(O,i =ilD) 
Ep 


(3) 式 (10.34) 的 第 3 项 为 


工 和 以 工 和 
3 (Sreea reo DEes ers = 
Ta re 
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同样 用 拉 格 朗 日 乘 子 法 ,约束 条 件 是 立 2(D =1 . 注意 , 只 有 在 w = 儿 时 已 (o) 对 
k= 
已 ( 昌 的 偏 导数 才 不 为 0， 以 7(o, =) 表示 . 求 得 


PPO =j1 Dro, =) 


已 ( 昌 = 气 (10.38) 


人 二 
PPO = 中 思 
1=] 


10.3.3 ”Baum-Welch 模型 参数 估计 公式 


将 式 (10.36) 一 式 (10.38) 中 的 各 概率 分 别 用 (i)，&(i, 让 表示 ， 则 可 将 相应 
的 公式 写成 : 


rl 





TE) 
y= 鱼 (10.39) 
XGO 
tl 
+ 
2 x0) 
b= (10.40) 
2x0) 
1=] 
t=%0) (10.41) 


其 中 , (站 ， 攻 (i,7) 分 别 由 式 (10.24) 及 式 (10.26) 给 出 . 式 (10.39) 一 式 (10.41) 就 
是 Baum-Welch 算法 (Baum-Welch algorithm)， 它 是 EM 算法 在 隐 马 尔 可 夫 模 型 
学 习 中 的 具体 实现 ， 由 Baum 和 Welch 提出 、 
算法 10.4 (Baum-Welch 算法 ) 
输入 : 观测 数据 O=(o,,0,,…,07r); 
输出 ， 隐 马尔 可 夫 模 型 参数 . 
(1) 初始 化 
对 n=0， 选 取 aj 中 ，b,(k)”，x 四 ,得 到 模型 49 = (40,Bw,zro) . 
(2) 递 推 . 对 n=1,2,…， 
I-1l 
D&G 


CD _ 世 
四 ”= 





ZXO 
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> x0) 
已 (be a 
Zr0) 
{=} 
"=%0) 
右 端 各 值 按 观 测 O = (o,o,…,or) 和 模型 4 = (4m,Bm,zm) 计算 . 式 中 %(i)， 
名 (i, 放 由 式 (10.24) 和 式 (10.26) 给 出 . 
(3) 终止 ， 得 到 模型 参数 or = (4or0,BorD ,ztD) ， 


10.4 预测 算法 


下 面 介绍 隐 马 尔 可 夫 模 型 预测 的 两 种 算法 ; 近似 算法 与 维特 比 算法 (Viterbi 
algorithm ). 


10.4.1 近似 算法 


近似 算法 的 想法 是 ， 在 每 个 时 刻 1 选 择 在 该 时 刻 最 有 可 能 出 现 的 状态 六 ， 从 
而 得 到 一 个 状态 序列 三 = (i, 训 …, 妆 ) ， 将 它 作为 预测 的 结果 

给 定 隐 马 尔 可 夫 模型 4 和 观测 序列 O ， 在 时 刻 ; 处 于 状态 4 的 概率 7 四 是 
QDAO__ a(dB) (0; 


xzO= 
POD Sap 
al 


在 每 一 时 刻 1 最 有 可 能 的 状态 六 是 
i =arg max[X OO)], 1=1,2,…,7 (10.43) 


从 而 得 到 状态 序列 大 =( 扩 , 许 …, 闸 ) . 

近似 算法 的 优点 是 计算 简单 ， 其 缺点 是 不 能 保证 预测 的 状态 序列 整体 是 最 有 
可 能 的 状态 序列 ， 因 为 预测 的 状态 序列 可 能 有 实际 不 发 生 的 部 分 , 事实 上 ， 上 述 
方法 得 到 的 状态 序列 中 有 可 能 存在 转移 概率 为 0 的 相 邻 状态 ， 即 对 某 些 i,j ， 
q =0 时 . 尽管 如 此 ， 近 似 算法 仍然 是 有 用 的 . 


10.4.2 维特 比 算法 


维特 比 算法 实际 是 用 动态 规划 解 隐 马尔 可 夫 模 型 预测 问题 ， 即 用 动态 规划 
《dynamic programming) 求 概率 最 大 路 径 〈 最 优 路 径 ). 这 时 一 条 路 径 对 应 着 一 个 
状态 序列 . 

根据 动态 规划 原理 ， 最 优 路 径 具 有 这 样 的 特性 :如 果 最 优 路 径 在 时 刻 t+ 通过 
结 点 首 ， 那 么 这 一 路 径 从 结 点 六 到 终点 匣 的 部 分 路 径 ， 对 于 从 六 到 站 的 所 有 可 能 
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的 部 分 路 径 来 说 ， 必 须 是 最 优 的 ， 因 为 假如 不 是 这 样 ， 那 么 从 六 到 立 就 有 另 一 条 
更 好 的 部 分 路 径 存在 ， 如 果 把 它 和 从 六 到 达 六 的 部 分 路 径 连接 起 来 ， 就 会 形成 一 
条 比 原来 的 路 径 更 优 的 路 径 ， 这 是 矛盾 的 . 依据 这 一 原理 ， 我 们 只 需 从 时 刻 !=1 开 
始 , 递 推 地 计算 在 时 刻 1 状态 为 1 的 各 条 部 分 路 径 的 最 大 概率 , 直至 得 到 时 刻 1=7 
状态 为 1 的 各 条 路 径 的 最 大 概率 ， 时 刻 :=7 的 最 大 概率 即 为 最 优 路 径 的 概率 己 ， 
最 优 路 径 的 终结 点 站 也 同时 得 到 . 之 后 ， 为 了 找 出 最 优 路 径 的 各 个 结 点 ， 从 终结 
点 站 开始 ,由 后 向 前 逐步 求 得 结 点 站,,… 沁 ， 得 到 最 优 路 径 太 = (让, 训 ,…, 记 ) .这 

就 是 维特 比 算法 、 
首先 导入 两 个 变量 5 和 多 . 定义 在 时 刻 1 状 态 为 的 所 有 单个 路 径 G@i,,…,i) 

中 概率 最 大 值 为 
SD)=, max Pl 一 0 0 | 1), i=1,2,°,N (10.44) 


由 定义 可 得 变量 8 的 递 推 公式 : 
Gu) = max Pl 二 让 oo 


= max[6 Dalb(0m), i=b2,%,N; t=1,2,,7T-1 (10.45) 


lej<N 


定义 在 时 刻 1 状态 为 i 的 所 有 单个 路 径 (i, 志 ,…,ii ,i) 中 概率 最 大 的 路 径 的 第 
t 一 1 个 结 点 为 

WD) =arg max[6 Da], 52 (10.46) 
下 面 介绍 维特 比 算法 . 
算法 10.5 维特 比 算法 ) 
输入 : 模型 4=(4,B,x) 和 观测 O=(0,0,,…,07); 
输出 : 最 优 路 径 T" =G 信 , 主 …, 熙 ) . 
(1) 初始 化 

dO=nb(0), i=L,2,%,N 
Y=0, i=L2,N 

(2) 递 推 . 对 1=2,3,…,T 

HD)= max[d Dando), -12 

WD)=arg max[6 Dar] 2… 


(3) 终止 


已 =maxd(i) 


i =arg max[6 (i)] 


lsi<N 
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(4) 最 优 路 径 回 湖 . 对 t=T 一 1,7 一 2,…,1 
=¥Ynlin) 
求 得 最 优 路 径 T" =(, 放 …, 疗 ). a 
下 面 通过 一 个 例子 来 说 明 维特 比 算法 . 
例 10.3 例 10.2 的 模型 4= (4,B,z)， 


0.5 0.2 0.3 0.5 0.5 
A=|0.3 0.5 0.2 


0.4 0.6|, Xx=(0.2,0.4,0.4)T 
0.2 03 0.5 


， B= 











0.7 0.3 


已 知 观测 序列 O = ( 红 , 白 , 红 ) ， 试 求 最 优 状 态 序列 ， 即 最 优 路 径 太 = (六 , 褒 , 骆 ) . 
解 ”如 图 10.4 所 示 , 要 在 所 有 可 能 的 路 径 中 选择 一 条 最 优 路 径 , 按照 以 下 步 
骤 处 理 ， 
(1) 初始 化 . 在 1=1 时 ， 对 每 一 个 状态 i，i=1,2,3 ， 求 状态 为 ;观测 o 为 红 
的 概率 ， 记 此 概率 为 6(i) ， 则 


d=nb(0)=xh (1), i=1,2,3 


代入 实际 数据 
5)=0.10, 6(2)=0.16, 6(3)=0.28 


记 y()=0, i=1,2,3. 








Li J 
0 1 2 3 时 间 
图 10.4 求 最 优 路 径 


” (2) 在 +:=2 时 ,对 每 个 状态 i，i=1,2,3， 求 在 t=1 时 状态 为 j 观 测 为 红 并 在 
t=2 时 状态 为 i 观测 o, 为 白 的 路 径 的 最 大 概率 ， 记 此 最 大 概率 为 6,(i) ， 则 
(0) =max {6.0)a]b(0,) 
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同时 ， 对 每 个 状态 i ，i=1,2,3 ， 记 录 概 率 最 大 路 径 的 前 一 个 状态 j : 
y=argmax{d ja], i=b2,3 
计算 : 
5)= ma [6,0)a 1b(0;,) 


=max{0.10x0.5,0.16x0.3,0.28x0.2}x0.5 
i 


=0.028 
WD=3 
6.(2) =0.0504, ys(2)=3 
6.(3)=0.042, y,(3)=3 
同样 ， 在 +=3 时 ， 
(0) = max [6,())anlh(o,) 


ya() =argmax [6,())an] 


1sj<3 
ED =0.00756, ys(D)=2 
6,(2)=0.01008, yw,(2)=2 
53)=0.0147, y,(3)=3 


(3) 以 P' 表 示 最 优 路 径 的 概率 ， 则 
P' =max 6,(i) =0.0147 
最 优 路 径 的 终点 是 二 
5 =argmax [6,()]=3 
(4) 由 最 优 路 径 的 终点 必 ， 逆 向 找到 ,六 : 
在 t=2 时 ， 训 =y(B)=w(3)=3 
在 :=1 时 ， 站 = 妨 信 )= 妨 (3)=3 
于 是 求 得 最 优 路 径 ， 即 最 优 状态 序列 六 = 全 演 居 )= (3,3,3) . 中 


本 章 概 要 


1， 隐 马尔 可 夫 模型 是 关于 时 序 的 概率 模型 ， 描 述 由 一 个 隐藏 的 马尔 可 夫 链 
随机 生成 不 可 观测 的 状态 的 序列 ， 再 由 各 个 状态 随机 生成 一 个 观测 而 产生 观测 的 
序列 的 过 程 . 
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隐 马 尔 可 夫 模 型 由 初始 状态 概率 向 量 x、 状 态 转 移 概率 矩阵 4 和 观测 概率 矩 
阵 刀 决定， 因此 ， 隐 马尔 可 夫 模 型 可 以 写成 4=(4,B,7). 

隐 马 尔 可 夫 模 型 是 一 个 生成 模型 ， 表 示 状 态 序列 和 观测 序列 的 联合 分 布 ， 但 
是 状态 序列 是 隐藏 的 ， 不 可 观测 的 . 

隐 马 尔 可 夫 模 型 可 以 用 于 标注 ， 这 时 状态 对 应 着 标记 . 标注 问题 是 给 定 观 测 
序列 预测 其 对 应 的 标记 序列 . 

2. 概率 计算 问题 . 给 定 模型 4 = (4,B,z) 和 观测 序列 O=(o,0,,…,0;)， 计算 
在 模型 4 下 观测 序列 O 出 现 的 概率 P(O| 作 .前 向 -后 向 算法 是 通过 递 推 地 计算 前 
向 -后 向 概率 可 以 高 效 地 进行 隐 马 尔 可 夫 模 型 的 概率 计算 . 

3， 学 习 问题 .已 知 观测 序列 O = (o,o,…,or) ， 估 计 模 型 4 = (4,B,zr) 参数 ， 
使 得 在 该 模型 下 观测 序列 概率 P(O14) 最 大 . 即 用 极 大 似 然 估 计 的 方法 估计 参 
数 ,Baum-Welch 算法 , 也 就 是 EM 算法 可 以 高 效 地 对 隐 马 尔 可 夫 模型 进行 训练 . 它 
是 一 种 非 监督 学 习 算法 . 

4. 预测 问题 .已 知 模型 4 = (4, B,z) 和 观测 序列 O = (oo…,or)， 求 对 给 定 
观测 序列 条 件 概率 P(1 10O) 最 大 的 状态 序列 了 =(i,i,…, 卉 ) .维特 比 算法 应 用 动态 
规划 高 效 地 求解 最 优 路 径 ， 即 概率 最 大 的 状态 序列 . 


继续 阅读 


隐 马 尔 可 夫 模 型 的 介绍 可 见 文献 [1, 2]， 特 别 地 ， 文 献 [1] 是 经 典 的 介绍 性 论文 . 
关于 Baum-Welch 算法 可 见 文献 [3, 4]. 可 以 认为 概率 上 下 文 无 关 文法 (probabilistic 
context-free grammar) 是 隐 马 尔 可 夫 模 型 的 一 种 推广 ， 隐 马尔 可 夫 模型 的 不 可 观 
测 数据 是 状态 序列 ， 而 概率 上 下 文 无 关 文 法 的 不 可 观测 数据 是 上 下 文 无 关 文法 树 回 , 
动态 贝 叶 斯 网 络 (dynamic Bayesian network) 是 定义 在 时 序数 据 上 的 贝 叶 斯 网 络 ， 
它 包 含 隐 马尔 可 夫 模型 ， 是 一 种 特例 四 . 


习 题 
10.1 给 定 盒子 和 球 组 成 的 隐 马 尔 可 夫 模 型 4=(4,B,x)， 其 中 ， 
0.5 02 03 0.5 0.5 
4=|03 05 02|, B=|0.4 0.6|， 克 =(0.2,0.4,0.4) 
0.2 0.3 0.5 0.7 0.3 














设 T=4，0O=( 红 , 白 , 红 , 白 ) ， 试 用 后 向 算法 计算 P(O| 力 . 
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10.2 ”考虑 盒子 和 球 组 成 的 隐 马 尔 可 夫 模型 4= (4,B,z) ， 其 中 ， 


0.5 0.1 0.4 0.5 0.5 
4=|03 0.5 0.2|, B=|0.4 0.6|, X=(0.2,0.3,0.5)" 
0.2 0.2 0.6 0.7 0.3 


设 T=8，0O=( 红 , 白 , 红 , 红 , 白 , 红 , 白 , 白 ) ,用 前 向 后 向 概率 计算 PGs = 9|0, 人 1) . 
10.3 在 习题 10.1 中 ， 试 用 维特 比 算法 求 最 优 路 径 T" =( 疗 , 属 , 襄 , 襄 ) ， 
10.4 ”试用 前 向 概率 和 后 向 概率 推导 


N 
POOID=T Yada 0)Ba), 1=12.,7-1 


el /3 


10.5 ”比较 维特 比 算法 中 变量 5 的 计算 和 前 向 算法 中 变量 a 的 计算 的 主要 区 别 . 
参考 文献 


[1] Rabiner L, Juang B. An introduction to hidden markov Models. IEEE ASSP Magazine, January 
1986 

[2] Rabiner L. A tutorial on hidden Markov models and selected applications in speech recognition. 
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第 工 章 条 件 随机 场 


条 件 随机 场 (conditional random field, CRF) 是 给 定 一 组 输入 随机 变量 条 件 下 
另 一 组 输出 随机 变量 的 条 件 概率 分 布 模型 ， 其 特点 是 假设 输出 随机 变量 构成 马尔 
可 夫 随 机 场 . 条 件 随机 场 可 以 用 于 不 同 的 预测 问题 ， 本 书 仅 论 及 它 在 标注 问题 的 
应 用 .因此 主要 讲述 线性 链 (linear chain) 条 件 随机 场 ， 这 时 ， 问 题 变 成 了 由 输 
入 序列 对 输出 序列 预测 的 判别 模型 ， 形 式 为 对 数 线性 模型 ， 其 学 习 方法 通常 是 极 
大 似 然 估 计 或 正则 化 的 极 大 似 然 估计 .线性 链条 件 随 机 场 应 用 于 标注 问题 是 由 
Lafferty 等 人 于 2001 年 提出 的 . 

本 章 首先 介绍 概率 无 向 图 模型 ， 然 后 叙述 条 件 随 机 场 的 定义 和 各 种 表示 方 
法 , 最 后 介绍 条 件 随机 场 的 3 个 基本 问题 : 概率 计算 问题 、 学 习 问 题 和 预测 问题 . 


11.1 概率 无 向 图 模型 


概率 无 向 图 模型 《probabilistic undirected graphical model)， 又 称 为 马尔 可 夫 
随机 场 (Markov random field)， 是 一 个 可 以 由 无 向 图 表示 的 联合 概率 分 布 ， 本 节 
首先 叙述 概率 无 向 图 模型 的 定义 ， 然 后 介绍 概率 无 向 图 模型 的 因子 分 解 ， 


11.1.1 模型 定义 


.图 〈graph) 是 由 结 点 (node) 及 连接 结 点 的 边 (edge) 组 成 的 集合 ， 结 点 和 边 
分 别 记 作 v 和 e， 结 点 和 边 的 集合 分 别 记 作 斑 和， 图 记 作 G=(V,E), 无 向 图 是 
指 边 没有 方向 的 图 . 

概率 图 模型 (probabilistic graphical model) 是 由 图 表示 的 概率 分 布 ， 设 有 联 
合 概率 分 布 P(Y) ，7Yey 是 一 组 随机 变量 .由 无 向 图 G= (7, 忆 ) 表示 概率 分 布 
P(Y)， 即 在 图 G 中 ， 结 点 ve 六 表示 一 个 随机 变量 六 ，Y=(Y,)ey; 边 ee 表示 
随机 变量 之 间 的 概率 依赖 关系 . 

给 定 一 个 联合 概率 分 布 P(Y) 和 表示 它 的 无 向 图 G .首先 定义 无 向 图 表示 的 
随机 变量 之 间 存 在 的 成 对 马尔 可 夫 性 (pairwise Markov property)、 局 部 马尔 可 夫 
性 (local Markov property) 和 全 局 马尔 可 夫 性 〈global Markov property). 

成 对 马尔 可 夫 性 : 设 x 和， 是 无 向 图 G 中 任意 两 个 没有 边 连接 的 结 点 ， 结 点 
u 和 v 分 别 对 应 随机 变量 入. 其 他 所 有 结 点 为 0, 对 应 的 随机 变量 组 是 二 .成 
对 马尔 可 夫 性 是 指 给 定 随机 变量 组 二 的 条 件 下 随机 变量 和 了 是 条 件 独立 的 ， 即 
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P(Y,,Y, 1Y)= PY, |Yo)P(Y, |Yo) (11.1) 

局 部 马尔 可 夫 性 : 设 ve VV 是 无 向 图 G 中 任意 一 个 结 点 ，W 是 与 ”有 边 连接 

的 所 有 结 点 ，O 是 v， 到 以 外 的 其 他 所 有 结 点 . "表示 的 随机 变量 是 工 ， 球 表示 

的 随机 变量 组 是 芒 ，O 表 示 的 随机 变量 组 是 】; ， 局 部 马尔 可 夫 性 是 指 在 给 定 随 
机 变量 组 克 , 的 条 件 下 随机 变量 7 与 随机 变量 组 元 是 独立 的 ， 即 

PL,,Yo | Yr)=P(Y, | Yn)PlYo | Ys) (11.2) 


在 P(Y,| 世 )>0 时 ， 等 价 地 ， 
P(Y, |Yy)=P(Y, | ,Yo) (11.3) 
图 11.1 表示 由 式 (11.2) 或 式 (11.3) 所 示 的 局 部 马尔 可 夫 性 . 


@v 

OwW 

®0 
图 11.1 局 部 马尔 可 夫 性 


全 局 马尔 可 夫 性 : 设 结 点 集合 4，B 是 在 无 向 图 G 中 被 结 点 集合 C 分 开 的 任 
意 结 点 集合 , 如 图 11.2 所 示 . 结 点 集合 4, B 和 C 所 对 应 的 随机 变量 组 分 别 是 乙 ， 
巧 和 苞 . 全 局 马尔 可 夫 性 是 指 给 定 随机 变量 组 丈 条 件 下 随机 变量 组 和 力 是 条 
件 独立 的 ， 即 


POYss Ys |Ye)= PY [Ye)P(Ys | Ye) (11.4) 






~ 


图 11.2 全 局 马尔 可 夫 性 


上 述 成 对 的 、 局 部 的 、 全 局 的 马尔 可 夫 性 定义 是 等 价 的 中. 
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下 面 定义 概率 无 向 图 模型 . 

定义 11.1 (概率 无 向 图 模型 ) 设 有 联合 概率 分 布 P(Y) ,由 无 向 图 G=(V,E) 
表示 ,在 图 G 中 ， 结 点 表示 随机 变量 ， 边 表示 随机 变量 之 间 的 依赖 关系 . 如 果 联 
合 概率 分 布 P(Y) 满足 成 对 、 局 部 或 全 局 马尔 可 夫 性 ， 就 称 此 联合 概率 分 布 为 概 
率 无 向 图 模型 (probability undirected graphical model), 或 马尔 可 夫 随 机 场 (Markov 
random field). 

以 上 是 概率 无 向 图 模型 的 定义 ， 实 际 上 ， 我 们 更 关心 的 是 如 何 求 其 联合 概率 
分 布 ， 对 给 定 的 概率 无 向 图 模型 ， 我 们 希望 将 整体 的 联合 概率 写成 若干 子 联合 概 
率 的 乘积 的 形式 ， 也 就 是 将 联合 概率 进行 因子 分 解 ， 这 样 便于 模型 的 学 习 与 计 
算 . 事实 上 , 概率 无 向 图 模型 的 最 大 特点 就 是 易于 因子 分 解 . 下 面 介绍 这 一 结果 . 


11.1.2 ”概率 无 向 图 模型 的 因子 分 解 


首先 给 出 无 向 图 中 的 团 与 最 大 团 的 定义 . 

定义 114.2〈 团 与 最 大 团 ) 无 向 图 G 中 任何 两 个 结 点 均 有 边 连接 的 结 点 子 集 
称 为 团 (clique). 车 C 是 无 向 图 G 的 一 个 团 , 并 且 不 能 再 加 进 任何 一 个 G 的 结 点 
使 其 成 为 一 个 更 大 的 团 ， 则 称 此 C 为 最 大 团 (maximal clique). 

图 11.3 表示 由 4 个 结 点 组 成 的 无 向 图 .图 中 由 2 个 结 点 组 成 的 团 有 5 个 ; {X, 马 ) 
入, 加 } ， 纹 ,及 } ， 红 , 史 } 和 {%, 且 }， 有 2 个 最 大 团 ， 信 ,%, 史 } 和 人 弱 ,%, 久 }. 而 
全 , 歼 , 旷 , 马 } 不 是 一 个 团 ， 因 为 六 和 没有 边 连 接 . 

也 到 





Fh Ys 
图 11.3 无 向 图 的 团 和 最 大 团 
将 概率 无 向 图 模型 的 联合 概率 分 布 表示 为 其 最 大 团 上 的 随机 变量 的 函数 的 
乘积 形式 的 操作 ， 称 为 概率 无 向 图 模型 的 因子 分 解 《fanetorization )。 
给 定 概率 无 向 图 模型 ， 设 其 无 向 图 为 G ，C 为 G 上 的 最 大 团 ， 必 表示 C 对 
应 的 随机 变量 .那么 梳 率 无 向 图 模型 的 联合 概率 分 布 P(Y) 可 写作 图 中 所 有 最 大 
团 C 上 的 函数 交 (2 的 乘积 形式 ， 即 
POD= 二 IT 到 GD) (15) 
zl 


其 中 ，Z 是 规范 化 因子 (normalization factor)， 由 式 
z=5TI¥ 0) (11.6) 
了 C 





194 第 11 章 条 件 随机 场 





给 出 . 规范 化 因子 保证 P(7) 构成 一 个 概率 分 布 . 函数 用 ( 丈 ) 称 为 势 函 数 (Potential 
function)， 这 里 要 求 势 函数 玫 (z) 是 严格 正 的， 通常 定义 为 指数 函数 : 


(Ye)=exp{-E(Y)} (11.7) 


概率 无 向 图 模型 的 因子 分 解 由 下 述 定理 来 保证 . 
定理 11.1 (Hammersley-Clifford 定理 ) ”概率 无 向 图 模型 的 联合 概率 分 布 
P(Y) 可 以 表示 为 如 下 形式 : 


P=2IIY.0) 
c 


z=5II¥0) 
了 C 
其 中 ，C 是 无 向 图 的 最 大 团 ， 到 是 C 的 结 点 对 应 的 随机 变量 ， 几 (区 ) 是 C 上 定 
义 的 严格 正 函数 ， 乘 积 是 在 无 向 图 所 有 的 最 大 团 上 进行 的 ， 日 


11.2 条 件 随 机 场 的 定义 与 形式 


11.2.1 条 件 随机 场 的 定义 


条 件 随 机 场 (conditional random field〉 是 给 定 随机 变量 X 条 件 下 ， 随 机 变量 
了 的 马尔 可 夫 随机 场 . 这 里 主要 介绍 定义 在 线性 链 上 的 特殊 的 条 件 随机 场 ， 称 为 
线性 链条 件 随 机 场 (linear chain conditional random field). 线性 链条 件 随机 场 可 以 
用 于 标注 等 问题 ， 这 时 ， 在 条 件 概率 模型 P(Y|X) 中 ，7 是 输出 变量 ， 表 示 标 记 
序列 , XX 是 输入 变量 , 表示 需要 标注 的 观测 序列 . 也 把 标记 序列 称 为 状态 序列 ( 参 
见 隐 马 尔 可 夫 模 型 ). 学 习 时 , 利用 训练 数据 集 通过 极 大 似 然 估计 或 正则 化 的 极 大 
似 然 估 计 得 到 条 件 概率 模型 AY|X) ， 预 测 时 ， 对 于 给 定 的 输入 序列 x， 求 出 条 
件 概率 P(y|x) 最 大 的 输出 序列 了. 

首先 定义 一 般 的 条 件 随机 场 ， 然 后 定义 线性 链条 件 随 机 场 . 

定义 11.3〈 条 件 随机 场 ) ” 设 久 与 7 是 随机 变量 ，P(Y|X) 是 在 给 定义 的 条 
件 下 了 的 条 件 概率 分 布 ， 若 随机 变量 了 构成 一 个 由 无 向 图 G=(V,E) 表 示 的 马尔 
可 夫 随 机 场 ， 即 


PY, | X,Y,, wz rv)=P(Y, | X,Y,,w~Y) (11.8) 
对 任意 结 点 v 成 立 , 则 称 条 件 概率 分 布 P(Y|X) 为 条 件 随机 场 . 式 中 w~v 表 示 在 


图 G=(V,E) 中 与 结 点 v 有 边 连 接 的 所 有 结 点 w，wzv 表 示 结 点 v 以 外 的 所 有 结 
点 ， 也 ， 世 与 又 为 结 点 v ,与 对 应 的 随机 变量 . 
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在 定义 中 并 没有 要 求 达 和 了 具有 相同 的 结构 .现实 中 ， 一 般 假 设 克 和 了 有 相 
同 的 图 结构 .本 书 主要 考虑 无 向 图 为 如 图 11.4 与 图 11.5 所 示 的 线性 链 的 情况 ， 即 
G=( 太 = 由 2 村 ， 瑟 ={Gi+DD，i=12…m=1 
在 此 情况 下 ，= (五 ,石生 ) ， 了 = (X, 瑟 …, 世 ) ， 最 大 团 是 相 邻 两 个 结 点 的 

集合 ， 线 性 链条 件 随机 场 有 下 面 的 定义 . 


hn 阁 a 用 


0 
图 11.4 线性 链条 件 随机 场 


六 bh A 
6 加 


图 11.5 天 和 了 有 相同 的 图 结构 的 线性 链条 件 随机 场 


定义 1.4 (线性 链条 件 随机 场 ) 设 蕊 =( 刀 天) ，Y 了 =(F, 电 ,…, 了 ) 均 
为 线性 链表 示 的 随机 变量 序列 , 若 在 给 定 随机 变量 序列 X 的 条 件 下 , 随机 变量 序 
列 了 的 条 件 概 率 分 布 P(Y|X) 构成 条 件 随机 场 ， 即 满足 马尔 可 夫 性 


POY | X, Fs, Ys Ys ) = PY | X,Y Y) 

i=1,2,…,n 《在 i=1 和 nn 时 只 考虑 单 边 ) (11.9) 

则 称 P(Y |X) 为 线性 链条 件 随机 场 ， 在 标注 问题 中 ，X 表示 输入 观测 序列 ，Y 表 
示 对 应 的 输出 标记 序列 或 状态 序列 . 
11.2.2 ”条 件 随 机 场 的 参数 化 形式 


根据 定理 11.1， 可 以 给 出 线性 链条 件 随 机 场 P(Y|X) 的 因子 分 解 式 ， 各 因子 
是 定义 在 相 邻 两 个 结 点 上 的 函数 . 

定理 11.2〈 线 性 链条 件 随 机 场 的 参数 化 形式 ) ” 设 P(7| 厂 ) 为 线性 链条 件 随 
机 场 ， 则 在 随机 变量 X 取 值 为 x 的 条 件 下 ,随机 变量 7 取信 为 的 条 件 概率 具有 
如 下 形式 ;: 


P019= 到 9( 罗 如 Cuesd+ hssD)] (11.10) 
下 i 
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其 中 ， 
Z(x) -ep[ Bans dt Bp ora (11.11) 
3 ik Ba 


式 中 ， 友 和 是 特征 函数 ， 勾 和 名 是 对 应 的 权 值 ，Z(zx) 是 规范 化 因子 ， 求 和 是 
在 所 有 可 能 的 输出 序列 上 进行 的 . 站 

式 (11.10) 和 式 (11.11) 是 线性 链条 件 随机 场 模型 的 基本 形式 ， 表 示 给 定 输入 
序列 x， 对 输出 序列 y 预测 的 条 件 概率 ， 式 (11.10) 和 式 (11.11) 中 到 是 定义 在 边 
上 的 特征 函数 ， 称 为 转移 特征 ， 依 赖 于 当前 和 前 一 个 位 置 ，% 是 定义 在 结 点 上 的 
特征 函数 ， 称 为 状态 特征 ， 依 赖 于 当前 位 置 ， 大 和 都 依赖 于 位 置 ， 是 局 部 特征 
函数 ,通常 ， 特 征 函数 上 和 8 取 值 为 1 或 0， 当 满足 特征 条 件 时 取 值 为 1， 和 否则 
为 0. 条 件 随 机 场 完全 由 特征 函数 4 ，s, 和 对 应 的 权 值 勾 ， 几 确定 

线性 链条 件 随 机 场 也 是 对 数 线性 模型 (log linear model). 

下 面 看 一 个 简单 的 例子 . 

例 HL.1 设 有 一 标注 问题 : 输入 观测 序列 为 禄 =( 久 ,XX,,XX)， 输 出 标记 序列 
为 了 = (了 ,瑟瑟 ) ， 卫 到, 五 取 值 于 了 = 也 分 

假设 特征 点 ,% 和 对 应 的 权 值 勾 ,全 如 下 : 


=O = =2,%i), i=2,3, 1=1 
这 里 只 注 明 特征 取 值 为 1 的 条 件 ， 取 值 为 0 的 条 件 省 略 ， 即 


,, = by =2, ,ib(i=2, 
bio2m0= 尼 =2,x,i,(i=2,3) 


下 同 . 
b=b(% =1,y,=1,x,2) 和 =0.5 
=6(y =2,» =1,x,3) 4=1 
=60% =2,y, =1,x,2), 和 =1 
=602=2 为 =2.23)， 和 =02 
s =5(y, =1,x,1), 向 =1 
$=5,(Y, =2,%i), i=1,2 b=0.5 
53=5(y; =1,x,i), i=2,3 =0.8 
54 = S43 =2,x,3), Ls=0.5 


对 给 定 的 观测 序列 x， 求 标记 序列 为 y=(y,y, 力 ) =(1,2,2) 的 非 规范 化 条 件 概率 
《 即 没有 除 以 规范 化 因子 的 条 件 概率 ). 
解 ” 由 式 (11.10)， 线 性 链条 件 随机 场 模型 为 
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5 3 4 3 
PO I ~ op | 守 40ponD+ 守 pn]| 


对 给 定 的 观测 序列 x， 标 记 序列 y=(1,2,2) 的 非 规 范 化 条 件 概率 为 
Pl» = =2,», =2|7) ~ exp (3.2) a 


11.2.3 条件 随机 场 的 简化 形式 


条 件 随机 场 还 可 以 由 简化 形式 表示 . 注意 到 条 件 随机 场 式 (11.10) 中 同一 特征 
在 各 个 位 置 都 有 定义 ， 可 以 对 同一 个 特征 在 各 个 位 置 求 和 ， 将 局 部 特征 函数 转化 
为 一 个 全 局 特征 函数 ， 这 样 就 可 以 将 条 件 随 机 场 写成 权 值 向 量 和 特征 向 量 的 内 积 
形式 ， 即 条 件 随机 场 的 简化 形式 . 

为 简便 起 见 ， 首 先 将 转移 特征 和 状态 特征 及 其 权 值 用 统一 的 符号 表示 . 设 有 
天 个 转移 特征 ， 天; 个 状态 特征 ，K =K,+K,， 记 


在 (及 -其 有 k=1,2,.%,K 


SXi), k=K+l; l=1,2,.…,K, 0112 


fund = 


然后 ， 对 转移 与 状态 特征 在 各 个 位 置 1 求 和 ， 记 作 
fiOD= Ef), =12… 天 113) 
用 表示 特征 (yx 的 权 值 ， 即 


ww- 羽 i (11.14) 
Lh, k=K+hl=b2,..,K, 
于 是 ， 条 件 随 机 场 (11.11) ~ (11.12) 可 表示 为 
P01D -2 PE mA (11.15) 
z=DFopwf0 (11.16) 


车 以 w 表 示 权 值 向 量 ， 即 
w= (WW Wk) (11.17) 
以 F(y,x) 表 示 全 局 特征 向 量 ， 即 
FO =(f9,7), 9,7),%, fr yx)" (11.18) 
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则 条 件 随机 场 可 以 写成 向 量 w 与 F(y,x) 的 内 积 的 形式 : 


_ exp(w:F(y,7x)) 
2oID- Zz (11.19) 
其 中 ， 
Z,(x)= Dexp(w:F(y,x)) (11.20) 


11.2.4 条 件 随 机 场 的 矩阵 形式 


条 件 随 机 场 还 可 以 由 矩阵 表示 . 假设 P,(y|x) 是 由 式 (11.15) ~ (11.16) 给 出 
的 线性 链条 件 随机 场 , 表示 对 给 定 观测 序列 x, 相应 的 标记 序列 y 的 条 件 概率 . 引 
进 特殊 的 起 点 和 终点 状态 标记 y。 = start ,yw = stop, 这 时 P,(y|x) 可 以 通过 矩阵 形 
式 表示 . 

对 观测 序列 x 的 每 一 个 位 置 i=1,2,…,n+1, 定义 一 个 m 阶 矩阵 ( m 是 标记 yy 
取 值 的 个 数 》 


M(x)=[M,(yi1,7, 17)] (11.21) 

M,(yi1 8: 1x) =exp(W(y,1, |)) (11.22) 
Kk 

WO 1X) = wf (yi pi) (11.23) 
i=] 


这 样 ， 给 定 观 测序 列 x， 标 记 序列 y 的 非 规范 化 概率 可 以 通过 n+1 个 矩阵 的 
乘积 J M,(y,,y1x) 表示 ， 于 是 ， 条 件 概率 P,(y|x) 是 


il 





1 ntl 
P,(y1x) -zl Mi(yi15 7 17) (11.24) 
其 中 ，2Z,(x) 为 规范 化 因子 ， 是 mn+1 个 矩阵 的 乘积 的 (start,stop) 元 素 : 
ZaCD0=(MCDM(CD Mon (0) ) mop (11.25) 


注意 ， 为 =start 与 y=stop 表示 开始 状态 与 终止 状态 ， 规 范 化 因子 Z,(x) 是 
以 start 为 起 点 stop 为 终点 通过 状态 的 所 有 路 径 yy,…y, 的 非 规范 化 概率 
TI 必 M4,y |) 之 和 .下 面 的 例子 说 明了 这 一 事实 . 

例 11.2 给 定 一 个 由 图 11.6 所 示 的 线性 链条 件 随机 场 ， 观 测序 列 x， 状 态 序 
列 y，i=1,2,3，n=3， 标 记 ye {2}， 假 设 y=start=1，y=stop=1， 各 个 
位 置 的 随机 矩阵 Mi (Co ，M,(x) ，M (CD ，M,(x) 分 别 是 
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wa-| “| m= |e | 


0 
Mon ?| Ma- 】 
22 


21 


试 求 状态 序列 y 以 start 为 起 点 stop 为 终点 所 有 路 径 的 非 规范 化 概率 及 规范 化 
因子 . 
解 首先 计算 图 11.6 中 从 start 到 stop 对 应 于 7= (1D ,y=(1,4,2),，… ,y= 
(2,2,2) 各 路 径 的 非 规范 化 概率 分 别 是 
ao ， aobicz: Aanbzacn, qob2c» 
Gobacs» ambyca, ambrcns qobycy 
然后 按 式 (11.25) 求 规范 化 因子 . 通过 计算 矩阵 乘积 M(x)M,(x)M,(x)M,(x) 
可 知 ， 其 第 1 行 第 1 列 的 元 素 为 
aoc + aoabyicny + aoibiaca + a02b2C2» 
十 ao 有 ca + G02byiCi + GoibiaC22 十 GozDoaca 


恰好 等 于 从 start 到 stop 的 所 有 路 径 的 非 规范 化 概率 之 和 ， 即 规范 化 因子 Z(z) .四 





start 1 1 1 stop 





图 11.6 状态 路 径 


11.3 ”条件 随机 场 的 概率 计算 问题 


条 件 随机 场 的 概率 计算 问题 是 给 定 条 件 随机 场 P(Y|X) ， 输 入 序列 x 和 输出 
序列 ， 计 算 条 件 概率 P(Y = |x)，P(Y = 5Z= 世 12 以 及 相应 的 数学 期 望 
的 问题 ， 为 了 方便 起 见 ， 像 隐 马 尔 可 夫 模型 那样 ， 引 进 前 向 -后 向 向 量 ， 递 归 地 
计算 以 上 概率 及 期 望 值 ， 这 样 的 算法 称 为 前 向 -后 向 算法 . 


11.3.1 前 向 -后 向 算法 
对 每 个 指标 i=0,1…,n+1， 定 义 前 向 向 量 @(x) : 


l, y=start 


a0I9- 忆 否则 (11.26) 
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oD=009 MO |D, i=l,2,%,n+l (11.27) 


又 可 表示 为 
(x) = 0 M,(x) (11.28) 
(yi | 表示 在 位 置 i 的 标记 是 yy 并 且 到 位 置 i 的 前 部 分 标记 序列 的 非 规 范 化 概 


率 ，yy 可 取 的 值 有 mm 个 ， 所 以 a(x) 是 m 维 列 向 量 . 
同样 ， 对 每 个 指标 i=0,1,…,n+1， 定 义 后 向 向 量 记 (x) : 


1 = 
B09= 公 a Mop (11.29) 
PB ON)= My yi [XB yin |x) (11.30) 
又 可 表示 为 
BW)= MP) (11.31) 


Byi1x) 表示 在 位 置 i 的 标记 为 并 且 从 i+1 到 n 的 后 部 分 标记 序列 的 非 规范 化 
概率 . 
由 前 向 -后 向 向 量 定义 不 难得 到 : 


Z(x)=07 (x).1=17 .B(x) 
这 里 ，1 是 元 素 均 为 1 的 m 维 列 向 量 . 
11.3.2 概率 计算 


按照 前 向 -后 向 向 量 的 定义 ,很 容易 计算 标记 序列 在 位 置 i 是 标记 ,的 条 件 概 
率 和 在 位 置 i-1 与 i 是 标记 y ,和 yy, 的 条 件 概 率 ; 


0B O17) 
POY =717)= Z0%) (11.32) 
oT 
PC 三 名 了 = [9= 0 ,yA 0 9 (11.33) 


其 中 ， 





Z(H=0T(0).1 
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11.3.3 期望值 的 计算 


利用 前 向 -后 向 向 量 ， 可 以 计算 特征 函数 关于 联合 分 布 P(X,Y) 和 条 件 分 布 
P(Y|X) 的 数学 期 望 . 
特征 函数 关于 条 件 分 布 P(Y|X) 的 数学 期 望 是 


ErzoloLA] 本 PPO ,7) 








tl TT 
= 5 fi pn GO MO [DB 017) 
k=1,2,…,K (11.34) 


isl J 


其 中 ， 
Z(x)=0T(x):1 


假设 经 验 分 布 为 P(X)， 特 征 函数 f 关于 联合 分 布 P(X,Y) 的 数学 期 望 是 
BocnLA]= 之 Po DD (Yip) 


= PD PO hp) 





tl 了 M ; /全 
-EBS BE AOi nd) 2) oe PB |x) 
k=1,2,…,K (11.35) 


其 中 ， 
Z(x) = (x).1 


式 (11.34) 和 式 (11.35) 是 特征 函数 数学 期 望 的 一 般 计 算 公 式 ， 对 于 转移 特征 
在 OO 及 ， 大 =12…, 大 ， 可 以 将 式 中 的 大 换 成 二 ， 对 于 状态 特征 ， 可 以 将 
式 中 的 f 换 成 s， 表 示 为 5.(9,xD))，k=K+1，1=1,2,…,K,. 

有 了 式 (11.32) 一 式 (11.35) ， 对 于 给 定 的 观测 序列 x 与 标记 序列 y， 可 以 通 
过 一 次 前 向 扫描 计算 a 及 Z(x)， 遂 过 一 次 后 向 扫描 计算 BB， 从 而 计算 所 有 的 概 
率 和 特征 的 期 望 . 


11.4 条 件 随 机 场 的 学 习 算法 


本 节 讨论 给 定 训练 数据 集 估计 条 件 随机 场 模型 参数 的 问题 , 即 条件 随 机 场 的 
学 习 问 题 .条件 随 机 场 模型 实际 上 是 定义 在 时 序数 据 上 的 对 数 线形 模型 ， 其 学 习 
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方法 包括 极 大 似 然 估计 和 正则 化 的 极 大 似 然 估 计 . 具体 的 优化 实现 算法 有 改进 的 
和 迭代 尺度 法 TS、 梯 度 下 降 法 以 及 拟 牛 顿 法 〈 参 阅 附 录 A 和 附录 B). 


11.4.1 改进 的 迭代 尺度 法 


已 知 训练 数据 集 ， 由 此 可 知 经 验 概率 分 布 P(X,Y) ， 可 以 通过 极 大 化 训练 数 
据 的 对 数 似 然 函数 来 求 模 型 参数 . 
训练 数据 的 对 数 似 然 函 数 为 


L(w)=Ls(P,)=logTIP,0 1 = 5 B(x, y)logP,(y|x) 
Dy bi 
当 忆 是 一 个 由 式 (11.15) 和 式 (11.16) 给 出 的 条 件 随 机 场 模型 时 ， 对 数 似 然 函 数 为 
LW)= 3 P(x,y)logP,(y|7) 


~ K ~ 
= 下 ze PD mf, Bx, y)logZ, 四 | 
Wy k=] 
NK N 
= Zh (5))— ZlogZ,(%) 
二 所 和 


改进 的 迭代 尺度 法 通过 选 代 的 方法 不 断 优 化 对 数 似 然 函 数 改变 量 的 下 界 ， 达 
到 极 大 化 对 数 似 然 函 数 的 目的 .假设 模型 的 当前 参数 向 量 为 w= (wi,w,…, we) ， 
向 量 的 增 量 为 5= (6,2，6x)7 ， 更 新 参数 向 量 为 w+G=(W +6,W + 全 …， 
wx +6k) .在 每 步 碗 代 过 程 中 ， 改 进 的 迭代 尺度 法 通过 依次 求解 式 (11.36) 和 
式 (11.37)， 得 到 5=(5,6…,6.)"， 推 导 可 参考 本 书 6.3.1 节 . 

关于 转移 特征 4 的 更 新 方程 为 


Eslt]= 5 Pe, DIG, p,m) 
ER tml 
=3 PPO Ix) Dt (yy, x i)exp(6T(x,y)) 
EE i=l 
k=1,2,.…,K, (11.36) 
关于 状态 特征 % 的 更 新 方程 为 
癌 ntl 
Esls]= 3 PG sO ni) 


=5 PO)PO | Ys, 0 0D) exp(6 TC 7)) 
Bp i=1 
1=1,2,…,K, (11.37) 
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这 里 ，T(x,y) 是 在 数据 (x,y) 中 出 现 所 有 特征 数 的 总 和 : 
Kk mt+l 
TE = /OD = fi) (11.38) 
天 k= i=l 


算法 11.1 (条件 随 机 场 模型 学 习 的 改进 的 迭代 尺度 法 ) 
输入 : 特征 函数 ,ye…,tk 541552 Sg 经 验 分 布 B(x,y) ; 
输出 : 参数 估计 值 记 ;模型 已 . 

(1) 对 所 有 Ke {1,2,…,KK} ， 取 初 值 w = 

(2) 对 每 一 ke {1,2,…,K} : 

《a) 当 k=1,2,…,KK 时 ， 令 6. 是 方程 





tl 
PDB)PO IY tly yi)exp(6.T x, y)) = Eslt:] 
ny ul 


的 解 ; 
当 k=KK +1，1=12,…,K, 时 ， 令 6 是 方程 


EP)PO I Ds Ord)exp(6e T= Esls,] 
ba 和 =1l 


的 解 ， 式 中 T(x,y) 由 式 (11.38) 给 出 . 

《b) 更 新 w 值 : ww +6 

《3) 如 果 不 是 所 有 w 都 收敛 ， 重 复 步骤 (2). 

在 式 (11.36) 和 式 (11.37) 中 ，T(x,y) 表示 数据 (x,y) 中 的 特征 总 数 ， 对 不 同 的 
数据 (x,y) 取 值 可 能 不 同 ， 为 了 处 理 这 个 问题 ， 定 义 松弛 特征 


ntl KK 
Sp)=5— 2 fx) (11.39) 
t=] k=] 


式 中 5 是 一 个 常数 ， 选 择 足 够 大 的 常数 5 使 得 对 训练 数据 集 的 所 有 数据 (x,y) ， 
s(0oD 攻 过 0 成 立 ， 这 时 特征 总 数 可 取 3 . 
由 式 (11.36) ， 对 于 转移 特征 1, ，6 的 更 新 方程 是 


二 EDPO'| Sn is Hi)exp(6.5) = Es[t] (11.40) 
1, Esl] 
6 oe (11.41) 


其 中 ， 


已 (GD)= ZFS Tuo i yi) sO MDrs B01 (11.42) 
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同样 由 式 (11.37) ， 对 于 状态 特征 % ， 友 的 更 新 方程 是 





EPPO| Ds Os ni)exp(6x .5) = Esls,] 


1 五 [5] 
On = 二 log 二 
S Els,] 








下 > 
El) -TPOD sn) A 
x 7 


(11.43) 


(11.44) 


(11.45) 


以 上 算法 称 为 算法 S， 在 算法 S 中 需要 使 常数 8 取 足 够 大 ， 这 样 一 来 ， 每 步 
迭代 的 增 量 向 量 会 变 大 ， 算 法 收敛 会 变 慢 . 算法 了 试图 解决 这 个 问题 算法 T 对 


每 个 观测 序列 x 计算 其 特征 总 数 最 大 值 T(x) : 
7(9) = max T(x,y) 


利用 前 向 -后 向 递 推 公式 ， 可 以 很 容易 地 计算 T(Cz) = . 
这 时 ， 关 于 转移 特征 参数 的 更 新 方程 可 以 写成 : 


Eslti]l= PO)PGO |x) Yt Cy yx,i)exp(6T(x)) 
ba i=] 
=D, BD PO | x) Dt, yx i)exp(6.T(x)) 
四 y t=] 
= Pw)ar, exp(6. 人 


五 
= .ap 
fm0 


(11.46) 


(11.47) 


这 里 ，a, 是 特征 的 期 待 值 ，6. =log, .是 多 项 式 方程 (11.47) 唯一 的 实 根 ， 











可 以 用 牛顿 法 求 得 ， 从 而 求 得 相关 的 5. 
同样 ， 关 于 状态 特征 的 参数 更 新 方程 可 以 写成 : 


Esls]= PP | Ds, i) exp(6r TCD) 
Ty 1 








= 了 Fo 了 Po|a 六 swOonDexp(5e TCD 
x 3 1 
= ,POO)b,, exp(6; .0 


= 
0 


(11.48) 
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这 里 ， 妨 ,是 特征 % 的 期 望 值 ，@ =log% ，%% 是 多 项 式 方程 (11.48) 唯一 的 实 根 ， 
也 可 以 用 牛顿 法 求 得 . 
11.4.2” 拟 牛顿 法 


条 件 随 机 场 模型 学 习 还 可 以 应 用 牛顿 法 或 拟 牛 顿 法 (参阅 附录 B) . 对 于 条 件 
随机 场 模型 


Ewin] 


ll 
P(y|®)= 


Eo (Fw) 


(11.49) 


学 习 的 优化 目标 函数 是 


min 109=E BoolosE exp Fp)- TP DE w/t (11.50) 
3 y i=] ES tel 


其 梯度 函数 是 
g(W= POP yD) Es(f) (11.51) 
拟 牛 顿 法 的 BFGS 算法 如 下 . 


算法 11.2〈 条 件 随机 场 模型 学 习 的 BFGS 算法 ) 
输入 : 特征 函数 /, 太 ,…,f,; 经 验 分 布 BX,Y); 
输出 ， 最 优 参 数值 多 ， 最 优 模型 P,(y|x) . 
(1) 选 定 初始 点 wo ， 取 肪 为 正定 对 称 和 矩阵 ， 转 =0 
(2) 计算 g =g(wo). 若 g&g =0， 则 停止 计算 ， 否 则 转 (3) 
(3) 由 Bp =-gi 求 出 pp 
(4) 一 维 搜索 ， 求 入 使 得 
(WO +hp) = mn Ww +Ap.) 
(5) 置 we =w+ 和 pp 
(6) 计算 ga =g(w*"?)， 若 g; =0， 则 停止 计算 ， 否则， 按 下 式 求 出 B, : 
上 站 及 6 
其 页 Bo. 





Bn=B.+ 


其 中 ， 


Vg ge B=w we 


(7) 置 k=k+1， 转 (3). a 


206 第 11 章 条 件 随机 场 


11.5 条 件 随机 场 的 预测 算法 


条 件 随机 场 的 预测 问题 是 给 定 条 件 随机 场 P(Y|X) 和 输入 序列 (观测 序列 ) x ， 
求 条 件 概 率 最 大 的 输出 序列 (标记 序列 ) y* ， 即 对 观测 序列 进行 标注 . 条 件 随机 
场 的 预测 算法 是 著名 的 维特 比 算法 (参阅 本 书 10.4 节 ). 

由 式 (11.19) 可 得 : 





y=argmax P,(y|) 

exp(w*F(y,x)) 
2,(%) 

= argmax exp(w" F(y,x)) 


=argmax 
站 


=argmax(w. FP(y,*)) 
于 是 ， 条 件 随机 场 的 预测 问题 成 为 求 非 规范 化 概率 最 大 的 最 优 路 径 问 题 
max (w:F(y,x)) (11.52) 
这 里 ， 路 径 表 示 标 记 序列 ， 其 中 ， 
w= (Ws Wr) 
FO9,%)= (09,7), f09, 2, fr Ox) 
Jp)= DE fp) k=1,2,,K 
isl 
注意 ， 这 时 只 需 计 算 非 规范 化 概率 ， 而 不 必 计 算 概率 ， 可 以 大 大 提高 效率 .为 了 
求解 最 优 路 径 ， 将 式 (11.52) 写成 如 下 形式 : 
max Fw. EO, (11.53) 
i=] 
其 中 ， 
FY px) = fin yi), fr ins ,xD fr Fi Di) 


是 局 部 特征 向 量 . 
下 面 叙 述 维特 比 算法 .首先 求 出 位 置 1 的 各 个 标记 j=1,2,…,m 的 非 规范 化 
概率 : 


d=w: R=start, y= j=1,2,,m (11.54) 

一 般 地 ， 由 递 推 公式 ， 求 出 到 位 置 i 的 各 个 标记 1=1,2,…,m 的 非 规范 化 概率 的 最 
大 值 ， 同 时 记录 非 规范 化 概率 最 大 值 的 路 径 

GOD= max{d Ntw Fhe), I=h2,m (11.55) 


1<j<m 
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PD) =arg max {D+ w FO = DP), 152 


直到 i=n 时 终止 , 这 时 求 得 非 规 范 化 概率 的 最 大 信 为 
max(w. F(y,x) = max 6.,()) 


1<j<m 


及 最 优 路 径 的 终点 
=argmax 6,(7) 


Isjsm 
由 此 最 优 路 径 终点 返回 ， 
=PB), i=n-ln-2,.,l 
求 得 最 优 路 径 = (六 ,六 ,…, 芒 )”. 
综 上 所 述 ， 得 到 条 件 随机 场 预测 的 维特 比 算法 : 
算法 11.3 (条件 随 机 场 预 测 的 维特 比 算法 ) 


(11.56) 


(11.57) 


(11.58) 


(11.59) 


输入 ;模型 特征 向 量 下 (y,x) 和 权 值 向 量 w， 观 测序 列 x=(%,%,…,x,); 


输出 ， 最 优 路 径 y* = (六 ,成 …, 功 ). 
(1) 初始 化 


SN))=wR%=starty =),x), 了 了 = 2 了 
(2) 递 推 ， 对 守 = 2,3,… 
GD=max{d tw Ry = = 7)}, 1=1,2,,m 


lgjsm 
PD= arg max {O(N + w» FO = =Dx)}, T=b2,%,m 


(3) 终止 
max(w Fy, 7) = max 6.0) 


功 = itd) 
(4) 返回 路 径 
P=) i=n-bn-2,..,1 
求 得 最 优 路 径 y* = (7, 蕊 …,y). 
下 面 通过 一 个 例子 说 明 维特 比 算法 . 


例 11.3 在 例 11.1 中 ,用 维特 比 算法 求 给 定 的 输入 序列 (观测 序列 ) x 对 应 


的 最 优 输出 序列 标记 序列 》y* =(w, 太 , 芒 ) . 
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解 特征 函数 及 对 应 的 权 值 均 在 例 11.1 中 给 出 . 
现在 利用 维特 比 算法 求 最 优 路 径 问题 ; 


3 
max Dw: Fi yi 
(1) 初始 化 
0)=w:RO%=start y= jx, j=1,2 
i=1, SD=1, 50)=05. 
(2) 递 推 
i=2 GD)=max{d D+w B00)} 
Hl)=max{l+ ht,0.5+ht}=1.6, PU)=1 
2)=max{l+ hn +phss,0.5+164ss}=2.5, PT(2)=1 
i=3 GD=max{6.0)+ wR)} 
6()=max{l.6+1sss,2.5+ hh +145)}=4.3, Pl)=2 
(2)=max{l.6+ Mh + Lsss,2.5+ Ats + Hass} =3.2, 到 (2)=1 
(3) 终止 
max(w» F(y,x) =max (ND) =6(1)=4.3 


» =argmax@(!)=1 


(4) 返回 
=B)=PD=2 
其 = 用 05)= 表 (2)=1 
最 优 标记 序列 
y= »)=(,2,) 和 
本 章 概要 


1. 概率 无 向 图 模型 是 由 无 向 图 表示 的 联合 概率 分 布 ， 无 向 图 上 的 结 点 之 间 
的 连接 关系 表示 了 联合 分 布 的 随机 变量 集合 之 间 的 条 件 独立 性 ， 即 马尔 可 夫 
性 . 因此， 概率 无 向 图 模型 也 称 为 马尔 可 夫 随机 场 . 

概率 无 向 图 模型 或 马尔 可 夫 随机 场 的 联合 概率 分 布 可 以 分 解 为 无 向 图 最 大 
团 上 的 正 值 函 数 的 乘积 的 形式 . 
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2. 条 件 随机 场 是 给 定 输入 随机 变量 了 条 件 下 ， 输 出 随机 变量 Y 的 条 件 概率 
分 布 模型 ， 其 形式 为 参数 化 的 对 数 线性 模型 . 条件 随 机 场 的 最 大 特点 是 假设 输出 
变量 之 间 的 联合 概率 分 布 构成 概率 无 向 图 模型 ， 即 马尔 可 夫 随 机 场 . 条 件 随 机 场 
是 判别 模型 . 

3。 线 性 链条 件 随机 场 是 定义 在 观测 序列 与 标记 序列 上 的 条 件 随机 场 ， 线 性 
链条 件 随 机 场 一 般 表示 为 给 定 观测 序列 条 件 下 的 标记 序列 的 条 件 概率 分 布 ， 由 参 
数 化 的 对 数 线性 模型 表示 . 模型 包含 特征 及 相应 的 权 值 ， 特 征 是 定义 在 线性 链 的 
边 与 结 点 上 的 ， 线 性 链条 件 随 机 场 的 数学 表达 式 是 


PO'| 回 ee CE 
i 


其 中 ， 
Z(x)= Eon Farosndt Duran))] 


4. 线性 链条 件 随机 场 的 概率 计算 通常 利用 前 向 -后 向 算法 

5 条件 随机 场 的 学 习 方 法 通常 是 极 大 似 然 估计 方法 或 正则 化 的 极 大 似 然 估 
计 ， 即 在 给 定 训练 数据 下 ， 通 过 极 大 化 训练 数据 的 对 数 似 然 函 数 以 估计 模型 参 
数 ， 具 体 的 算法 有 改进 的 迭代 尺度 算法 、 梯 度 下 降 法 、 拟 牛顿 法 等 ， 

6. 线性 链条 件 随机 场 的 一 个 重要 应 用 是 标注 .维特 比 算法 是 给 定 观测 序列 
求 条 件 概率 最 大 的 标记 序列 的 方法 . 


继续 阅读 


关于 概率 无 向 图 模型 可 以 参阅 文献 [1, 2]， 关 于 条 件 随机 场 可 以 参阅 文献 [3, 4] 
在 条 件 随机 场 提出 之 前 已 有 最 大 粹 马尔 可 夫 模型 等 模型 被 提出 四， 条 件 随 机 场 可 
以 看 作 是 最 大 粹 马尔 可 夫 模型 在 标注 问题 上 的 推广 . 支持 向 量 机 模型 也 被 推广 到 
标注 问题 上 [了 





习 题 


11.1 写 出 图 11.3 中 无 向 图 描述 的 概率 图 模型 的 因子 分 解 式 . 
11.2 证 明 2Z(x)=Q (Xx).1= 了 本 .B(x)， 其 中 1 是 元 素 均 为 1 的 m 维 列 向 量 . 
11.3 写 出 条 件 随机 场 模型 学 习 的 梯度 下 降 法 
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11.4 参考 图 11.6 的 状态 路 径 图 ,假设 随机 和 矩阵 M(x)，M,(x)，M,(x)，M,(x) 


[1] 
2] 


[G3] 


[4] 


[5] 
[6] 


[7 


分 别 是 


0 0 03 07 
m0 eA m= [0 | 


0.5 0.5 oi 
m=|0s | ， Mon 
求 以 start= 2 为 起 点 stop = 2 为 终点 的 所 有 路 径 的 状态 序列 ? 的 概率 及 概 
率 最 大 的 状态 序列 . 
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第 1 章 统计 学 习 方 法 总 结 


本 书 共 介 绍 了 10 种 主要 的 统计 学 习 方法 ， 感 知 机 、 大 近邻 法 、 朴 素 贝 叶 斯 
法 、 决 策 树 、 远 辑 斯 诺 回 归 与 最 大 焙 模 型 、 支 持 向 量 机 、 提 升 方法 、EM 算法 、 隐 
马尔 可 夫 模 型 和 条 件 随机 场 . 这 10 种 统计 学 习 方 法 的 特点 概括 总 结 在 表 12.1 中 ， 


表 12.1 10 种 统计 学 习 方法 特点 的 概括 总 结 
学 习 的 损 





























方法 。 | 适用 问题 | 模型 特点 | 模型 类 型 | 学 习 策 略 | 闫 函数 ”| 学 习 算 法 
感知 机 ”| 二 半分 类 ”分离 超 平 面 | 淹 别 模型 | 投 未 化 误 分 点 | 误 分 点 到 | 随机 梯度 下 降 
到 超 平面 距离 起 平面 距 
近邻 法 ”| 多 类 分 类 ，| 特 征 空 间 , 样 | 判别 模型 
归 本 点 
朴素 贝 叶 斯 | 多 类 分 类 “| 特征 与 类 别 | 生成 模型 | 极 图 大 似 然 估 | 对 数 似 然 | 概率 计算 公式 ， 
法 的 联合 概率 ， 极 大 后 验 | 损失 EM 算法 
分 布 , 条 件 独 人 
立 假设 
次 策 禁 ” ”| 多 类 分 类 ，| 分 类 树 , 回归 | 潮 别 模型 | 正则 化 的 极 大 | 对 数 似 然 | 竺 定 选择 ， 生 
_ 回 归 树 似 然 估计 。 ”| 损失 成 ， 前 枝 
逻辑 斯 说 回 | 多 类 分 类 ”| 特征 条 件 下 | 判别 模型 加 大 似 然 信 | 轴 辑 斯 谤 | 改进 的 迭代 尺 
归 与 最 大 业 类 别 的 条 件 计 ， 正 则 化 的 | 损失 度 算法 ， 梯 度 
模型 概率 分 布 ， 对 | 极 大 似 然 估计 下 降 ， 拟 牛顿 
数 线形 模型 法 
支持 向 量 机 | 三 类 分 类 ”| 分 高 超 平 面 , | 判别 模型 | 极 小 化 正则 化 | 合 页 损失 | 序列 最 小 最 优 
核 技巧 合 页 损失 ， 软 | 化 算法 (SMO) 
间隔 最 大 化 
提升 方法 “| 二 类 分 类 “| 弱 分 类 器 的 | 羯 别 模型 | 极 小 化 加 法 模 | 指 数 损失 “| 前 向 分 步 加 法 
线性 组 合 型 的 指数 损失 | | 算法 
EM 算法 5 | 概率 模型 参 | 含 隐 变量 概 | 可 大 似 然 信 风 古人 人 然 取代 四 法 
数 估计 | 率 模型 极 大 后 验 | 损失 
国人 | 
隐 马 尔 可 夫 | 标 注 现 测 序列 与 | 生成 模 到 | 权 大 似 然 信 计 ,| 对 区 仅 多 | 入 率 于 算式， 
模型 状态 序列 的 极 大 后 验 概率 | 损失 EM 算法 
联合 概率 分 估计 
-二 一 | 布 模型 十 一 
条 件 随机 场 | 标注 状态 序列 条 | 判别 模型 | 极 大 似 然 估 | 对 数 似 然 | 改进 的 迭代 尺 
件 下 观测 序 计 ， 正 则 化 极 | 损失 度 算法 ， 梯 度 
列 的 条 件 概 大 似 然 估计 下 降 ， 拟 牛顿 
率 分 布 , 对 数 

















@ EM 算法 在 这 里 有 些 特殊 ， 它 是 个 一 般 方法 ， 不 具有 具体 模型 
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下 面 对 各 种 方法 的 特点 及 其 关系 进行 简单 的 讨论 . 
1， 适 用 问题 


本 书 主要 介绍 监督 学 习 方法 . 监督 学 习 可 以 认为 是 学 习 一 个 模型 ， 使 它 能 对 
给 定 的 输入 预测 相应 的 输出 监督 学 习 包 括 分 类 、 标 注 、 回 归 ， 本 书 主要 考虑 前 
两 者 的 学 习 方法 . 分 类 问题 是 从 实例 的 特征 向 量 到 类 标记 的 预测 问题 ， 标 注 问题 
是 从 观测 序列 到 标记 序列 〈 或 状态 序列 ) 的 预测 问题 .可 以 认为 分 类 问题 是 标注 
问题 的 特殊 情况 ， 分 类 问题 中 可 能 的 预测 结果 是 二 类 或 多 类 ， 而 标注 问题 中 可 能 
的 预测 结果 是 所 有 的 标记 序列 ， 其 数目 是 指数 级 的 . 

感知 机 、 大 近邻 法 、 朴 素 贝 叶 斯 法 、 决 策 树 、 逻 辑 斯 谤 回归 与 最 大 焙 模 型 、 
支持 向 量 机 、 提 升 方 法 是 分 类 方法 . 原始 的 感知 机 、 支 持 向 量 机 以 及 提升 方法 是 
针对 二 类 分 类 的 ， 可 以 将 它们 扩展 到 多 类 分 类 . 隐 马 尔 可 夫 模 型 、 条 件 随 机 场 是 
标注 方法 ，EM 算法 是 含有 隐 变 量 的 概率 模型 的 一 般 学 习 算 法 ， 可 以 用 于 生成 模 
型 的 非 监 督学 习 . 

感知 机 、k 近 邻 法 、 朴 素 贝 叶 斯 法 、 决 策 树 是 简单 的 分 类 方法 ， 具 有 模型 直 
观 、 方 法 简单 、 实 现 容易 等 特点 .逻辑 斯 谤 回归 与 最 大 粹 模型 、 支 持 向 量 机 、 提 
升 方法 是 更 复杂 但 更 有 效 的 分 类 方法 ， 往 往 分 类 准确 率 更 高 ， 隐 马尔 可 夫 模 型 、 
条 件 随机 场 是 主要 的 标注 方法 .通常 条 件 随机 场 的 标注 准确 率 更 高 


2， 模 型 


分 类 问题 与 标注 问题 的 预测 模型 都 可 以 认为 是 表示 从 输入 空间 到 输出 空间 的 
映射 . 它们 可 以 写成 条 件 概率 分 布 P(Y|X) 或 决策 函数 Y= f(X) 的 形式 . 前 者 表 
示 给 定 输入 条 件 下 输出 的 概率 模型 ， 后 者 表示 输入 到 输出 的 非 概率 模型 ， 有时， 模 
型 更 直接 地 表示 为 概率 模型 ， 或 者 非 概率 模型 ， 但 有 时 模型 兼 有 两 种 解释 

朴素 贝 叶 斯 法 、 隐 马尔 可 夫 模 型 是 概率 模型 ， 感 知 机 、 大 近邻 法 、 支 持 向 量 
机 、 提 升 方法 是 非 概 率 模型 .而 决策 树 、 逻 辑 斯 谤 回归 与 最 大 炳 模型 、 条 件 随 机 
场 既 可 以 看 作 是 概率 模型 ， 又 可 以 看 作 是 非 概 率 模型 . 
直接 学 习 条 件 概率 分 布 P(Y|XX) 或 决策 函数 了 = f(X) 的 方法 为 判别 方法 , 对 
应 的 模型 是 判别 模型 . 感知 机 、k 近 邻 法 、 决 策 树 、 逻 辑 斯 谤 回归 与 最 大 粹 模型 、 
支持 向 量 机 、 提 升 方法 、 条 件 随 机 场 是 判别 方法 . 首先 学 习 联 合 概率 分 布 P(X,Y)， 
从 而 求 得 条 件 概率 分 布 P(Y | 色 ) 的 方法 是 生成 方法 ， 对 应 的 模型 是 生成 模型 . 朴素 
贝 叶 斯 法 、 隐 马尔 可 夫 模 型 是 生成 方法 . 图 12.1 给 出 部 分 模型 之 间 的 关系 。 

可 以 用 非 监 督学 习 的 方法 学 习 生 成 模型 . 具体 地 ， 应 用 EM 算法 可 以 学 习 朴 
素 贝 叶 斯 模型 以 及 隐 马 尔 可 夫 模型 . 

决策 树 是 定义 在 一 般 的 特征 空间 上 的 ， 可 以 含有 连续 变量 或 离散 变量 . 感知 
机 、 支 持 向 量 机 、k 近 邻 法 的 特征 空间 是 欧 氏 空间 (更 一 般 地 ， 是 希 尔 伯 特 空 
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间 ). 提升 方法 的 模型 是 弱 分 类 器 的 线性 组 合 ， 弱 分 类 器 的 特征 空间 就 是 提升 方 
法 模型 的 特征 空间 . 

感知 机 模型 是 线性 模型 ， 而 逻辑 斯 谤 回归 与 最 大 粹 模型 、 条 件 随机 场 是 对 数 
线性 模型 . 上 近邻 法 、 决 策 树 、 支 持 向 量 机 〈 包 含 核 函 数 )、 提 升 方法 使 用 的 是 
非 线 性 模型 . 

12.1 从 生成 与 判别 、 分 类 与 标注 两 个 方面 描述 了 几 个 统计 学 习 方 法 之 间 的 
关系 . 





生成 对 判别 










逻辑 斯 谤 回 
归 与 最 硕 
分 类 对 标注 分 类 对 标注 


隐 马 尔 可 夫 
模型 











生成 对 判别 





条 件 随机 场 











图 12.1 部 分 模型 之 间 的 关系 


3， 学 习 策 略 

在 二 类 分 类 的 监督 学 习 中 ， 支持 向 量 机 、 逻 辑 斯 谤 回归 与 最 大 粹 模型 、 提 升 
方法 各 自 使 用 合 页 损失 函数 、 逻 辑 斯 谤 损失 函数 、 指 数 损失 函数 .3 种 损失 函数 
分 别 写 为 


[1-0 (12.1) 
log[1+ exp(-»7 (x))] (12.2) 
exp(—»/ (7) (12.3) 


这 3 种 损失 函数 都 是 0-1 损失 函数 的 上 界 , 具有 相似 的 形状 , 如 图 12.2 所 示 . 所 以 ， 
可 以 认为 支持 向 量 机 、 逻 辑 斯 席 回 归 与 最 大 炉 模 型 、 提 升 方法 使 用 不 同 的 代理 损 
失 函 数 (surrogate loss function) 表示 分 类 的 损失 , 定义 经 验 风 险 或 结构 风险 函数 ， 
实现 二 类 分 类 学 习 任务 .学 习 的 策略 是 优化 以 下 结构 风险 函数 ; 
吕 育 IOsfGD + (29 

这 里 ， 第 1 项 为 经 验 风险 (经 验 损失 )， 第 2 项 为 正则 化 项 ，L(y, f(x)) 为 损失 函 
数 ，.7(]) 为 模型 的 复杂 度 ，4 > 0 为 系数 . 

支持 向 量 机 用 工 , 范 数 表示 模型 的 复杂 度 . 原始 的 逻辑 斯 谤 回归 与 最 大 粹 模型 
没有 正则 化 项 , 可 以 给 它们 加 上 厂 范 数 正则 化 项 . 提升 方法 没有 显 式 的 正则 化 项 ， 
通常 通过 早 停 止 〈early stopping) 的 方法 达到 正则 化 的 效果 . 
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函数 间隔 : yf(x) 
图 12.2 0-1 损失 函数 、 合 页 损失 函数 、 远 辑 斯 许 损 失 函 数 、 指 数 损失 函数 的 关系 





以 上 二 类 分 类 的 学 习 方 法 可 以 扩展 到 多 类 分 类 学 习 以 及 标注 问题 ， 比 如 标注 
问题 的 条 件 随 机 场 可 以 看 作 是 分 类 问题 的 最 大 焙 模 型 的 推广 . 

概率 模型 的 学 习 可 以 形式 化 为 极 大 似 然 估计 或 贝 叶 斯 估计 的 极 大 后 验 概率 
估计 ， 这 时 ， 学 习 的 策略 是 极 小 化 对 数 似 然 损失 或 极 小 化 正则 化 的 对 数 似 然 损 
失 . 对 数 似 然 损失 可 以 写成 

-logP(y|x) 
极 大 后 验 概率 估计 时 ， 正 则 化 项 是 先 验 概率 的 负 对 数 . 

决策 树 学 习 的 策略 是 正则 化 的 极 大 似 然 估 计 ， 损 失 函 数 是 对 数 似 然 损失 ， 正 
则 化 项 是 决策 树 的 复杂 度 ， 

风 辑 斯 谤 回归 与 最 大 炉 模型 、 条 件 随机 场 的 学 习 策略 既 可 以 看 成 是 极 大 似 然 
估计 或 正则 化 的 极 大 似 然 估计 )， 又 可 以 看 成 是 极 小 化 逻辑 斯 谤 损失 或 正则 
化 的 逻辑 斯 说 损失 ). 

朴素 贝 叶 斯 模型 、 隐 马尔 可 夫 模型 的 非 监督 学 习 也 是 极 大 似 然 估 计 或 极 大 后 
验 概率 估计 ， 但 这 时 模型 含有 隐 变 量 . 

4， 学 习 算 法 

统计 学 习 的 问题 有 了 具体 的 形式 以 后 ， 就 变 成 了 最 优化 问题 . 有 时 ， 最 优化 
问题 比较 简单 ， 解 析 解 存在 ， 最 优 解 可 以 由 公式 简单 计算 .但 在 多 数 情况 下 ， 最 
优化 问题 没有 解析 解 ， 需 要 用 数值 计算 的 方法 或 启发 式 的 方法 求解 ， 

朴素 贝 叶 斯 法 与 隐 马 尔 可 夫 模 型 的 监督 学 习 ， 最 优 解 即 极 大 似 然 估 计 值 ， 可 
以 由 概率 计算 公式 直接 计算 . 

感知 机 、 逻 辑 斯 说 回归 与 最 大 炉 模 型 、 条 件 随 机 场 的 学 习 利 用 梯度 下 降 法 、 
拟 牛 顿 法 等 ， 这 些 都 是 一 般 的 无 约束 最 优化 问题 的 解法 . 
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支持 向 量 机 学 习 ， 可 以 解 凸 二 次 规划 的 对 偶 问 题 . 有 序列 最 小 最 优化 算法 等 
方法 . 
决策 树 学 习 是 基于 启发 式 算法 的 典型 例子 .可 以 认为 特征 选择 、 生 成 、 剪 枝 
是 启发 式 地 进行 正则 化 的 极 大 似 然 估计 . 

提升 方法 利用 学 习 的 模型 是 加 法 模型 、 损 失 函 数 是 指数 损失 函数 的 特点 ， 启 
发 式 地 从 前 向 后 逐步 学 习 模 型 ， 以 达到 逼近 优化 目标 函数 的 目的 

EM 算法 是 一 种 迭代 的 求解 含 隐 变 量 概率 模型 参数 的 方法 ， 它 的 收敛 性 可 以 
保证 ， 但 是 不 能 保证 收敛 到 全 局 最 优 . 

支持 向 量 机 学 习 、 逻 辑 斯 谤 回归 与 最 大 炉 模 型 学 习 、 条 件 随 机 场 学 习 是 凸 优 
化 问题 ， 全 局 最 优 解 保证 存在 而 其 他 学 习 问 题 则 不 是 凸 优化 问题 . 





附录 A 梯度 下 降 法 


梯度 下 降 法 〈gradient descent) 或 最 速 下 降 法 〈steepest descent) 是 求解 无 约 
柬 最 优化 问题 的 一 种 最 常用 的 方法 ， 有 实现 简单 的 优点 . 梯度 下 降 法 是 迭代 算 
法 ， 每 一 步 需要 求解 目标 函数 的 梯度 向 量 . 

假设 f(x) 是 R”" 上 具有 一 阶 连续 偏 导数 的 函数 . 要 求解 的 无 约束 最 优化 问 
题 是 


min f(x) (A.l) 


已 表示 目标 函数 f(x) 的 极 小 点 . 
梯度 下 降 法 是 一 种 迭代 算法 . 选取 适当 的 初 值 xo ， 不 断 迭 代 ， 更 新 zx 的 值 ， 
进行 目标 函数 的 极 小 化 , 直到 收敛 . 由 于 负 梯 度 方向 是 使 函数 值 下 降 最 快 的 方向 ， 
在 和 迭代 的 每 一 步 ， 以 负 梯度 方向 更 新 x 的 值 ， 从 而 达到 减少 函数 值 的 目的 ， 
由 于 f(x) 具有 一 阶 连续 偏 导 数 , 若 第 丰 次 迭代 值 为 9 , 则 可 将 f(x) 在 x 中 附 
近 进 行 一 阶 泰勒 展开 : 


， JGCD=JGeze)+SgrC-xO) (A.2) 
这 里 ，g, = g(x 中 )= V/A) 为 f(x) 在 x9 的 梯度 . 
求 出 第 上 +1 次 迭代 值 xer) : 
XD ex 二 办 天 (A.3) 


其 中 ，p, 是 搜索 方向 ， 取 负 梯 度 方向 p, =-VA(x 中 )， 久 是 步 长 ， 由 一 维 搜索 确 
定 ， 即 入 使 得 


Ja +AP)= minf +hp,) (A4) 


梯度 下 降 法 算法 如 下 : 

算法 A.1 (梯度 下 降 法 ) 

输入 : 目标 函数 f(x) ， 梯 度 函 数 g(z) = Yf(xz) ， 计 算 精度 &; 

输出 : f(x) 的 极 小 点 疡 . 

(1) 取 初 始 值 xms R"， 置 E=0 

(2) 计算 f(x 中 ) 

(3) 计算 梯度 gx = g(x 中 )， 当 |g,|<e 时 ， 停 止 达 代 ， 令 x* =x 中 ， 否则， 
令 P:=-g(x")， 求 入 ， 使 


附录 B ”牛顿 法 和 拟 牛 顿 法 


.牛顿 法 《Newton method) 和 拟 牛 顿 法 (quasi Newton method) 也 是 求解 无 约 
束 最 优化 问题 的 常用 方法 ， 有 收敛 速度 快 的 优点 .牛顿 法 是 迭代 算法 ， 每 一 步 需 
要 求解 目标 函数 的 海 赛 矩 阵 的 逆 矩 阵 ， 计 算 比 较 复杂 . 拟 牛 顿 法 通过 正定 矩阵 近 
似 海 赛 矩阵 的 逆 矩 阵 或 海 赛 矩阵 ， 简 化 了 这 一 计算 过 程 . 

1， 和 牛顿 法 
考虑 无 约束 最 优化 问题 
min f(x) (B.D 


其 中 x 为 目标 函数 的 极 小 点 . 
假设 f(x) 具有 二 阶 连续 偏 导数 ， 若 第 上 次 迭代 值 为 xo9 ， 则 可 将 f(x) 在 x 中 
附近 进行 二 阶 泰勒 展开 : 


S00 + eT) HN BD 


这 里 ，g, = g(x 中 )=V/(x 中 ) 是 了 (x) 的 梯度 向 量 在 点 x 的 值 ，(x 中 ) 是 f(x) 的 
海 赛 矩阵 〈Hesse matrix) 





-| .97 
H(x)= | Er | (B.3) 
在 点 x 中 的 值 .函数 f(x) 有 极 值 的 必要 条 件 是 在 极 值 点 处 一 阶 导数 为 0， 即 梯度 
向 量 为 0。 特别 是 当 矿 (x 中) 是 正定 矩阵 时 ， 函 数 (x) 的 极 值 为 极 小 值 . 
牛顿 法 利用 极 小 点 的 必要 条 件 

V(x)=0 (B.4) 
每 次 欠 代 中 从 点 x% 开始 ， 求 目标 函数 的 极 小 点 ， 作 为 第 下 +1 次 迭代 值 xe . 具 
体 地 ， 假 设 x*"” 满足: 


Vx)=0 (B.5) 





由 式 (B.2) 有 

VI)= gi + Hi(x-x") (B.6) 
其 中 忌 = 及 (x 中 ). 这样， 式 (B.5) 成 为 
Br 十 本 (CC -x®)=0 (B.7) 
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此 ， 
xD =x® — Hrg (B.8) 
或 者 
XD = + ph (B.9) 
其 中 ， 
Hp: = 一 Srx (B.10) 





用 式 (B.8) 作为 迭代 公式 的 算法 就 是 牛顿 法 . 

算法 B.1 牛顿 法 》 

输入 : 目标 函数 f(x)， 梯 度 g(x)=Vf(x)， 海 赛 矩 阵 太 (x) ， 精 度 要 求 € ; 
输出 f(x) 的 极 小 点 x . 

(1) 取 初 始点 x”， 置 k=0 

(2) 计算 gr = g(x 中 ) 

(3) 若 l| gi 上 <e ， 则 停止 计算 ， 得 近似 解 x* = x 中 

(4) 计算 五 , = 五 (x 中 )， 并 求 pp 


Hip: = -8 





(5) 置 x* =x 中 +p 

(6) 置 k=k+1， 转 (2). a 

步骤 (4) 求 p,，p, =-Hig;， 要 求 Hi? ,计算 比 较 复 杂 ， 所 以 有 其 他 改进 
的 方法 . 

2.， 拟 牛顿 法 的 思路 

在 牛顿 法 的 迭代 中 ， 需 要 计算 海 赛 矩阵 的 逆 矩 阵 五: ， 这 一 计算 比较 复杂 ， 考 
处 用 一 个 n 阶 矩阵 G, = G(xz%) 来 近似 代替 已: = "(x 中 )， 这 就 是 拟 牛 顿 法 的 基 
本 想法 ， 

先 看 牛顿 法 迭代 中 海 赛 矩阵 于 满足 的 条 件 . 首先 ，HH, 满足 以 下 关系 ,在 
式 (B.6) 中 取 x= xx ， 即 得 

gin — gr = Hx —x®) (B11) 


记 六 =gi— grt’ 6. Xt x ， 则 
六 = 本 和 (B.12) 
或 
Hey = (B.13) 
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式 (B.12) 或 式 (B.13) 称 为 拟 牛 顿 条 件 . 
如 果 厂 , 是 正定 的 (Hi! 也 是 正定 的 )， 那么 可 以 保证 牛顿 法 搜索 方向 p, 是 下 
降 方 向 .这 是 因为 搜索 方向 是 p=-Ag;， 由 式 (B.8) 有 


x=x0 +Ap: =x" -AHi'g, (B.14) 

所 以 f(x) 在 x 外 的 泰勒 展开 式 (B.2) 可 以 近似 写成 : 
f(x)=f(x")- AgrHi ge: (B.15) 
因 石 正定, 故 有 giHi'g > 0 . 当 4 为 一 个 充分 小 的 正 数 时 , 总 有 f(x) < f(x 中 )， 


也 就 是 说 p, 是 下 降 方 向 . 
拟 牛顿 法 将 G, 作为 He 的 近似 ， 要 求 矩 阵 G, 满足 同样 的 条 件 。 首先， 每 次 
迭代 和 矩阵 G, 是 正定 的 . 同时 ，G 满足 下 面 的 拟 牛顿 条 件 ， 


Gn = (B.16) 
按照 拟 牛顿 条 件 选择 G 作为 87 的 近似 或 选择 B, 作为 及; 的 近似 的 算法 称 


为 拟 牛 顿 法 . 
按照 拟 牛 顿 条 件 ， 在 每 次 迭代 中 可 以 选择 更 新 矩阵 G,,, : 


Gu =G, +AG, (B.17) 
这 种 选择 有 一 定 的 灵活 性 ， 因 此 有 多 种 具体 实现 方法 .下面 介绍 Broyden 类 拟 牛 
顿 法 . 
3，DFP ( Davidon-Fletcher-Powell ) 算法 ( DFP algorithm ) 


DFP 算法 选择 Gt 的 方法 是 , 假设 每 一 步 和 迭代 中 矩阵 G,, 是 由 G, 加 上 两 个 附 
加 项 构成 的 ， 即 


Gn=G.+Rh +Q. (B.18) 
其 中 只，Q, 是 待定 矩阵 ， 这 时 ， 
Giny = Gi + Ry + Qs (B.19) 
为 使 Gi 满足 拟 牛 顿 条 件 ， 可 使 忆 和 ,满足 : 
Ry = (B.20) 
Q = -Gy (B.21) 


事实 上 ， 不 难 找 出 这 样 的 有 和 OQ,， 例 如 取 
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及 = 多 (B.22) 
Q -= -2 (B.23) 

这 样 就 可 得 到 矩阵 G, 的 迭代 公式 ; 
Gi =G, + RG _ GyVEG (B24) 





大 攻关 Go 


称 为 DFP 算法 . 

可 以 证 明 ， 如 果 初 始 矩 阵 G, 是 正定 的 ， 则 和 迭代 过 程 中 的 每 个 矩阵 G, 都 是 正 
定 的 ， 

DFP 算法 如 下 : 

算法 B.2 (DFP 算法 ) 

输入 : 目标 函数 f(x) ， 梯 度 g(x) = Vf(x) ， 精 度 要 求 e; 

输出 f(x) 的 极 小 点 x . 

(1) 选 定 初始 点 x ， 取 GG。 为 正定 对 称 矩 阵 ， 置 k=0 

(2) 计算 g, = g(x ) .车 | gi I<e ， 则 停止 计算 ， 得 近似 解 x* =x ， 否 则 
转 (3) 

(3) 置 p=-G.g 

(4) 一 维 搜索 ， 求 使 得 


Jo +AhP)= minf(x® +Ap) 


Az0 





(5) 置 x 了 =x 由 + 入 pp， 
(6) 计算 gi =g(x**)， 若 || gi 上 <e， 则 停止 计算 ， 得 近似 解 x* =x%*， ; 
否则 ， 按 式 (B.23) 算出 G,,， 
(7) 置 =k+1， 转 (3). m 
4. BFGS ( Broyden-Fletcher-Goldfarb -Shanno ) 算法 ( BFGS algorithm ) 
BFGS 算法 是 最 流行 的 拟 牛 顿 算法 . 
可 以 考虑 用 G 逼近 海 赛 矩阵 的 逆 矩 阵 及"! ,也 可 以 考虑 用 B, 逼近 海 赛 矩阵 瓦 
这 时 ， 相 应 的 拟 牛顿 条 件 是 
Bud = 六 (B.25) 
可 以 用 同样 的 方法 得 到 另 一 迭代 公式 . 首先 令 
B=B:+h +Q, (B.26) 
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Bud, =B6.+B6.+0.6, (B27) 

考虑 使 已 和 0 满足 : 
R6. = B28) 
Q.6, =-B.6. B29) 


找 出 适合 条 件 的 已 和 @, ， 得 到 BFGS 算法 矩阵 及, 的 迭代 公式 : 


WE BOOEB, 
天 6 SB6. 


可 以 证 明 ， 如 果 初 始 矩 阵 防 是 正定 的 ， 则 迭代 过 程 中 的 每 个 矩阵 及 都 是 正 


Bn=B.+ 





(B.30) 


定 的 . 
下 面 写 出 BFGS 拟 牛 顿 算法 . 
算法 B.3 (BFGS 算法 ) 
输入 : 目标 函数 f(x)，g(x)=V/(x)， 精 度 要 求 e ; 
输出 f(x) 的 极 小 点 x . 
(1) 选 定 初始 点 x”， 取 BP, 为 正定 对 称 矩 阵 ， 置 &=0 
(2) 计算 g, = g(x 中 )， 车 lgi 上 <e ， 则 停止 计算 ， 得 近似 解 x* =x ; 否则 
转 (3) 
(3) 由 Bp =-84 求 出 p， 
(4) 一 维 搜索 ， 求 入 使 得 


fC + hp) = minf (x +Ap) 


(5) 置 xx =x 中 + 各 ph 

(6) 计算 gi =g(x*")， 若 | gsm 上 <e ， 则 停止 计算 ， 得 近似 解 忆 = xm 
否则 ， 按 式 (B.30) 算出 B., 

(7) 置 E=4+1， 转 (3). 加 


5，Broyden 类 算法 ( Broyden’s algorithm ) 


我 们 可 以 从 BFGS 算法 矩阵 及 的 迭代 公式 (B.30) 得 到 BFGS 算法 关于 G, 的 迭 
代 公 式 . 事实 上 , 车 记 Gy = Bi'，G, = Bi ， 那么 对 式 (B.30) 两 次 应 用 Sherman- 
Morrison 公式 ? 即 得 


@ Sherman-Morrison 公式 : 假设 4 是 n 阶 可 逆 和 矩阵，u,v 是 n 维 向 量 ， 且 4+uv" 也 是 可 逆 矩 阵 ， 则 
A A 


Atw' = 4 一 一 一 二 一 
人 tviA™ 
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儿 ] ( 条 ] GE 

G， =|T- 环 |G,|7- ee B.31 
| Bp) By) oy Cy 
称 为 BFGS 算法 关于 G, 的 迭代 公式 . 


由 DFP 算法 G 的 选 代 公式 (B.23) 得 到 的 Gi,, 记 作 G"”， 由 BFGS 算法 G, 的 
迭代 公式 (B.31) 得 到 的 G, 记 作 G”™* ， 它 们 都 满足 方程 拟 牛 顿 条 件 式 ， 所 以 它 
们 的 线性 组 合 

Gi = CGPm +(1— Gs (B.32) 
也 满足 拟 牛 顿 条 件 式 , 而 且 是 正定 的 . 其 中 0< w 和 1. 这 样 就 得 到 了 一 类 拟 牛 顿 
法 ， 称 为 Broyden 类 算法 . 


附录 C ” 拉 格 朗 日 对 侦 性 


在 约束 最 优化 问题 中 ， 常 常 利用 拉 格 朗 日 对 偶 性 〈Lagrange duality) 将 原始 
问题 转换 为 对 偶 问题 ， 通 过 解 对 偶 问题 而 得 到 原始 问题 的 解 ， 该 方法 应 用 在 许多 
统计 学 习 方 法 中 ， 例 如 ， 最 大 焙 模 型 与 支持 向 量 机 .这 里 简要 叙述 拉 格 朗 日 对 偶 
性 的 主要 概念 和 结果 . 





1， 原 始 问题 
假设 了 (x)，c,(x)，h,(x) 是 定义 在 R" 上 的 连续 可 微 函 数 ， 考 虑 约束 最 优化 问题 
min f(x) (C.1) 
st. co(x)<0, i=1,2,…,k (C.2) 
h(x)=0, j=1,2,.,l (C3) 


称 此 约束 最 优化 问题 为 原始 最 优化 问题 或 原始 问题 . 
首先 ， 引 进 广义 拉 格 朗 日 函数 〈generalized Lagrange function) 


天 
ZooD)=JCO+》 ac(o+ > Bh (x) (C.4) 
tl j=l 


这 里 ，x= (x 中,x 中 ,…,x 四 "Ee R"，Q ,是 拉 格 朗 日 乘 子 ，Q 0. 考虑 x 的 函数 : 
Or(x) = max L(x,0,P) (C5) 


这 里 ， 下 标 己 表示 原始 问题 . 
假设 给 定 某 个 x*. 如 果 x 违 反 原始 问题 的 约束 条 件 ， 即 存在 某 个 i 使 得 
ci(w) > 0 或 者 存在 某 个 j 使 得 及 (w) 0， 那么 就 有 


6,(x)= Be + 二 cam 到 ona] = +eo (C.6) 
Wo =! a 
因为 车 某 个 i 使 约束 c,(x) >0, 则 可 令 @ 一 + ， 车 某 个 j 使 h(x)z0，, 则 可 令 B 
使 Bh,(x) 一 +ee ， 而 将 其 余 各 w， 均 取 为 0. 
相反 地 , 如 果 x 满 足 约束 条 件 式 (C.2) 和 式 (C.3)， 则 由 式 (C.5) 和 式 (C.4) 可 
知 , 9,(x)= f(x). 因此 ， 
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.= { 0 ee (C7) 
所 以 如 果 考 虑 极 小 化 问题 | 
minb, (=min max, L(x, 0 P) (C8) 


它 是 与 原始 最 优化 问题 (C.1) ~ (C3) 等 价 的 ， 即 它们 有 相同 的 解 ， 问 是 
min gax,ZCo co) 称 为 广义 拉 格 朗 日 画 数 的 极 小 极 大 问题， 这样 一 来 ， 就 把 原 


始 最 优化 问题 表示 为 广义 拉 格 朗 日 函数 的 极 小 极 大 问题 . 为 了 方便 ， 定 义 原始 问 
题 的 最 优 值 


P' =minO, (x) (C9) 
称 为 原始 问题 的 值 ， 
2， 对 偶 问 题 
定义 
Oo(0%P)=minL(x,0,p) (C.10) 


再 考虑 极 大 化 2(o,D)= minL(x,0,p), 即 


B00 (0 PB) = ax min L(x 0 P) (CD 


问题 pax。 min LCx o 有 称 为 广义 拉 格 朗 日 函数 的 极 大 极 小 问题 . 
可 以 将 广义 拉 格 朗 日 函数 的 极 大 极 小 问题 表示 为 约束 最 优化 问题 


may Op(0,P)= max minL(x,0, pf) (C.12) 
st 0>0, i=b2,.,k (C.13) 

称 为 原始 问题 的 对 偶 问 题 . 定义 对 偶 问 题 的 最 优 值 
a = max, 00,p) (C.14) 


称 为 对 偶 问 题 的 值 . 
3， 原 始 问题 和 对 偶 问 题 的 关系 
下 面 讨论 原始 问题 和 对 侦 问 题 的 关系 . 
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定理 C.1 若 原 始 问题 和 对 侦 问题 都 有 最 优 值 ， 则 


d*= max minL(x,0@,P)<min max L(x,0,P)=p" (C.15) 
pi>0 # x ,po>0 


证 明 ”由 式 (C.12) 和 式 (C.5) ， 对 任意 的 @,B8 和 x， 有 
Oo(0,B)=minL(%,0,p)< Lx,0,p) < max Lx%0B)=0(x) (C10) 





即 
Ob (0,P) < Oo.(7) (C.17) 
由 于 原始 问题 和 对 偶 问题 均 有 最 优 值 ， 所 以 ， 
,Oo (0 PB) < min Oo (x) (C.18) 
即 
d= Pax, minL(x,0, pb) < min max, L(x,0,p) =p" (C.19) 


mn 

推论 C.1 设 关 和 wx, 分 别 是 原始 问题 (C.1) ~ (C.3) 和 对 偶 问 题 (C.12) 一 

(C.13) 的 可 行 解 ， 并 且 =p*， 则 x* 和 w',pP° 分 别 是 原始 问题 和 对 偶 问 题 的 最 
优 解 . 


在 某 些 条 件 下 ,原始 问题 和 对 偶 问 题 的 最 优 值 相 等 ，d* = p* . 这 时 可 以 用 解 
对 偶 问题 替代 解 原始 问题 . 下 面 以 定理 的 形式 叙述 有 关 的 重要 结论 而 不 予 证 明 . 

定理 C.2 考虑 原始 问题 (C.1) 一 (C.3) 和 对 偶 问 题 (C.12) ~ (C.13) . 假设 函 
数 f(x) 和 ci(z) 是 凸 函 数 ，h,(x) 是 仿 射 函数 ， 并 且 假 设 不 等 式 约束 c(x) 是 严格 
可 行 的 ， 即 存在 x*， 对 所 有 i 有 c(x)<0， 则 存在 x',@*,P"， 使 x' 是 原始 问题 的 
解 ，e', 是 对 偶 问 题 的 解 ， 并 且 


Pp’'=d=L(x,0,P") (C.20) 
定理 C.3 对 原始 问题 (C.1) ~ (C.3) 和 对 偶 问 题 (C.12) 一 (C.13)， 假设 函数 
f(x) 和 c(x) 是 凸 函数 ， 力 kx) 是 仿 射 函数 ， 并 且 不 等 式 约束 c,(x) 是 严格 可 行 的 ， 


则 关 和 or, 太 分 别 是 原始 问题 和 对 偶 问题 的 解 的 充分 必要 条 件 是 关 ,o", 太 满足 
下 面 的 Karush-Kuhn-Tucker (KKT) 条 件 : 


VL(x',0 ,PB')=0 (C21) 
VaL(x',0',P)=0 (C.22) 
VoL(x',0',P')=0 (C.23) 
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Qo(x)=0, i=L2,.…,k (C.24) 
or)<0, i=12,,k (C.25) 
@ >0, i=1,2,,k (C.26) 
hx)=0 j=1,2,.…,] (C.27) 


特别 指出 ， 式 (C.24) 称 为 KKT 的 对 偶 互 补 条 件 . 由 此 条 件 可 知 : 车 @* >0， 
则 c,(x’)=0. 
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潜在 变量 (latent variable) 155 

强化 学 习 《reinforcement leaming) 2 

强 可 学 习 (strongly leamable) 137 

切 分 变量 (splitting variable) 68 

切 分 点 (splitting point) 68 

全 局 马尔 可 夫 性 (global Markov property) 191 
权 值 (weight) 25 

权 什 向 量 (weight vector) 25 


软 间隔 最 大 化 soft margin maximization) 95 
弱 可 学 习 〈weakly learnable) 137 
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篇 (entropy) 50 

生成 方法 (generative approach) 17 
生成 模型 (generative model) 18 
实例 (instance) 4 

势 函数 《potential function) 194 
输出 空间 (output space) 4 

输入 空间 (input space) 4 

数据 (data) 1 

算法 (algorithm》 2 

随机 梯度 下 降 法 (stochastic gradient descent) 28 
损失 函数 〈loss function》7，65 


特异 点 〈outlier) 108 

特征 函数 〈feature function) 82 

特征 空间 (feature space) 4 

特征 向 量 (feature vector) 4 

梯度 提升 (gradient boosting) 151 

梯度 下 降 法 (gradient descent) 217 

提升 (boosting) 137 

提升 树 (boosting tree) 137，147 

提早 停止 early stopping) 213 

条 件 篇 (conditional entropy) 61 

条 件 随机 场 (conditional random field，CRF) 191，194 
统计 机 器 学 习 (statistical machine leaming) 1 

统计 学 习 (statistical learning) 1 

统计 学 习 方法 (statistical leaming method) 3 
统计 学 习 理论 (statistical learning theory) 3 
统计 学 习 应 用 (application of statistical learning) 3 
凸 二 次 规划 (convex quadratic programming) 95，100，109 
图 (graph) 191 

《cligue) 193 


完全 数据 (complete-data) 157 
维特 比 算法 (Viterbi algorithm) 184，207 
文本 分 类 (text classification) 20 

误差 率 (error rate) 10 


希 尔 伯 特 空间 (Hilbert space) 118 
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线性 分 类 模型 (linear classification model) 25 

线性 分 类 器 (linear classifier) 25 

线性 可 分 数据 集 (linearly separable data set) 26 
线性 可 分 支持 向 量 机 《linear support vector machine in linearly separable case) 95,，106 
线性 链 (linear chain) 191 

线性 链条 件 随机 场 《linear chain conditional random field) 191，194 
线性 扫描 (linear scan) 41 

线性 支持 向 量 机 〈]linear support vector machine) 95，106，109 
信息 增益 (information gain》 59，61 

信息 增益 比 〈information gain ratio) 63 

序列 最 小 最 优化 《sequential minimal optimization，SMO) 124 

学 习 率 (learning rate) 28 

训练 集 (training set) 14 

训练 数据 (training data) 2，4 

训练 误差 (training error) 10 


验证 集 《validation set) 14 

叶 结 点 (leaf node) 55 

因子 分 解 (factorization》 193 

隐 变 量 《hidden variable) 155 

陷 马尔 可 夫 模型 (hidden Markov model, HMM) 171 
硬 间 阳 最 大 化 (hard margin maximization) 95，99 
有 向 边 (directed edge》 55 

余弦 相似 度 《cosine similarity) 123 

预测 (prediction) 5，18 

原始 问题 (primal problem) 103，225 


再 生 核 希 尔 伯 特 空间 (reproducing kemet Hilbert space，RKHS) 120 
召回 率 (recall》 19 

正定 核 函 数 (positive definite kernel function) 118 
正则 化 〈regularization) 13 

正则 化 项 〈regularizer) 9，13 

支持 向 量 〈support vector) 102，107 
支持 向 量 机 〈support vector machines，SVM) 95 
指示 函数 〈indicator function) 10 

指数 损失 函数 (exponential loss function》 145 

中 位 数 (median) 41 

状态 序列 (state sequence) 171 
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准确 率 (accuracy) 10，19 

字符 串 核 函数 《string kernel function) 122 

最 大 后 验 概率 估计 (maximum posterior probability estimation, MAP) 9 
最 大 间隔 法 (maximum margin method) 100 

最 大 灶 模 型 《maximum entropy model) 77，80，83 

最 大 团 (maximal clique) 193 

最 速 下 降 法 (steepest descent) 217 

最 小 二 乘法 (least squares) 22 

最 小 二 乘 回归 树 (least squares regression tree) 69 


0-1 损失 函数 (0-1 loss function) 7 


AdaBoost 算法 (AdaBoost algorithm) 137，138 

Baum-Welch 算法 (Baum-Welch algorithm) 183 

BFGS 算法 (Broyden-Fletcher-Goldfarb-Shanno algorithm, BFGS algorithm) 222 
Broyden 类 算法 (Broyden’s algorithm) 223 

C4.5 算 法 (C4.5 algorithm) 65 

DFP 算法 (Davidon-Fletcher-Powell algorithm, DFP algorithm) 221 
EM 算法 (EM algorithm) 157，162，183 

斑 函 数 (F function) 166 

Gram 和 矩阵 (Gram matrix) 34，119 

ID3 算法 (ID3 algorithm) 63 

Jensen 不 等 式 (Jensen inequality) 159 

khq 树 (kdtree) 41 

KKT (Karush-Kuhn-Tucker) 条 件 (KKT (Karush-Kuhn-Tucker) conditions) 125，227 
上 近邻 法 (k-nearest neighbor,，k-NN) 37 

厂 范 数 (Li norm) 14 

攻 范 数 (Lynorm) 14 

距离 (Lo distance) 38 

Minkowski 距离 《Minkowski distance) 38 

2 函数 (2 function) 158 

S 形 曲线 (sigmoid curve) 77 

38 折 交 叉 验证 〈S-foid cross validation》 15 


